Qwen:PARSCALE 讓語(yǔ)言模型在并行中飛躍
大家好,我是肆〇柒。今天,我們來聊聊大型語(yǔ)言模型(LLM)領(lǐng)域的一項(xiàng)研究——PARSCALE。在人工智能快速發(fā)展的當(dāng)下,大型語(yǔ)言模型應(yīng)用前景無比廣闊,然而,隨著模型規(guī)模的不斷膨脹,我們正面臨著前所未有的挑戰(zhàn)。以 DeepSeek-V3 模型為例,其參數(shù)量已達(dá)到 672B,這使得邊緣設(shè)備部署時(shí)內(nèi)存需求飆升,極大地限制了模型的實(shí)際應(yīng)用范圍。與此同時(shí),為提升推理能力而增加生成推理 token 數(shù)量的方法,也帶來了顯著的時(shí)間和成本問題。例如,有研究發(fā)現(xiàn)某些強(qiáng)大模型在解答像“2+3=?”這樣簡(jiǎn)單的問題時(shí),會(huì)生成多達(dá) 900 個(gè)推理 token,耗費(fèi)數(shù)秒甚至數(shù)十秒的時(shí)間。這些問題讓我們不得不思考:是否存在一種更高效、更經(jīng)濟(jì)的模型擴(kuò)展方式?
該研究由浙江大學(xué)和 Qwen 團(tuán)隊(duì)合作完成,提出了 PARSCALE 方法。它是一種全新的并行擴(kuò)展范式,有望突破現(xiàn)有擴(kuò)展方法的局限,為 LLM 的發(fā)展提供新的思路。接下來,讓我們一起看看這項(xiàng)研究的內(nèi)容。
參數(shù)擴(kuò)展的困境
隨著大型語(yǔ)言模型在各行各業(yè)的應(yīng)用不斷深入,模型參數(shù)量的增加已成為提升性能的主要手段之一。然而,這種方式卻帶來了沉重的內(nèi)存負(fù)擔(dān)。在醫(yī)療領(lǐng)域,智能診斷系統(tǒng)需要處理海量的醫(yī)療影像和病歷數(shù)據(jù)。當(dāng)模型參數(shù)量不斷增加時(shí),所需的內(nèi)存資源呈指數(shù)級(jí)增長(zhǎng)。這意味著云端服務(wù)器需要投入大量資金用于存儲(chǔ)設(shè)備的升級(jí),而對(duì)于邊緣設(shè)備,如移動(dòng)醫(yī)療檢測(cè)儀,由于內(nèi)存容量有限,往往無法本地運(yùn)行大型模型,這影響了診斷效率,還可能涉及數(shù)據(jù)隱私問題,因?yàn)閿?shù)據(jù)需要傳輸?shù)皆贫诉M(jìn)行處理。
推理時(shí)間擴(kuò)展的局限
為了提高模型的推理能力,研究人員嘗試通過增加生成推理 token 數(shù)量來增強(qiáng)模型對(duì)復(fù)雜問題的理解和解決能力。這種方法在一定程度上確實(shí)提升了模型的性能,但其時(shí)間和成本問題卻日益突出。
Classifier-Free Guidance(CFG)的啟示
研究人員發(fā)現(xiàn) Classifier-Free Guidance(CFG)在擴(kuò)散模型中的成功應(yīng)用為解決上述問題提供了重要啟示。在圖像生成領(lǐng)域,CFG 通過兩次前向傳播來提升生成圖像的質(zhì)量。首先對(duì)原始輸入進(jìn)行正常前向傳播得到一個(gè)輸出流,然后對(duì)輸入進(jìn)行擾動(dòng)(如去除條件信息)得到第二個(gè)輸出流。最后,根據(jù)預(yù)設(shè)的對(duì)比規(guī)則對(duì)這兩個(gè)流進(jìn)行聚合,從而獲得比單次前向傳播更優(yōu)的性能。實(shí)驗(yàn)數(shù)據(jù)顯示,在圖像生成任務(wù)中,CFG 相較于單次前向傳播,性能提升了 20% 至 30%。
受 CFG 的啟發(fā),研究人員提出了一個(gè)假設(shè):CFG 的有效性可能源于其雙倍的計(jì)算量。基于這一假設(shè),就提出了 PARSCALE 方法。PARSCALE 是通過增加并行計(jì)算來提升模型能力,而不僅僅依賴參數(shù)擴(kuò)展或推理時(shí)間擴(kuò)展。PARSCALE 借鑒了 CFG 的核心理念,通過在訓(xùn)練和推理過程中引入多個(gè)并行流,并對(duì)這些流的輸出進(jìn)行動(dòng)態(tài)聚合,實(shí)現(xiàn)了更高效、更靈活的模型擴(kuò)展。
PARSCALE 方法論
如下圖所示,PARSCALE 的并行擴(kuò)展方式與傳統(tǒng)擴(kuò)展方式形成鮮明對(duì)比,為我們提供了一種新的思考視角來理解模型擴(kuò)展。
(1) 并行擴(kuò)展(PARSCALE)的示意圖。 (2) 在Stack-V2(Python子集)的42B tokens上對(duì)預(yù)訓(xùn)練模型進(jìn)行并行放大定律。 (3) 隨著推理成本變化的損失放大曲線。結(jié)果是根據(jù)批次大小 ∈ {1,2,4,8} 和輸入 + 輸出tokens ∈ {128,256,512,1024} 計(jì)算的平均值。
核心思想
PARSCALE 的核心思想是在不顯著增加模型參數(shù)的情況下,通過增加并行計(jì)算來提升模型的性能。傳統(tǒng)上,大型語(yǔ)言模型主要依賴于參數(shù)擴(kuò)展或推理時(shí)間擴(kuò)展來增強(qiáng)能力。然而,這兩種方法都存在明顯的局限性。PARSCALE 提出了一種新的思路,即在訓(xùn)練和推理過程中,對(duì)輸入進(jìn)行多種不同的可學(xué)習(xí)變換,生成多個(gè)并行流,然后執(zhí)行模型的并行前向傳播,最后通過動(dòng)態(tài)加權(quán)和的方式對(duì)多個(gè)流的輸出進(jìn)行聚合。這種方法充分利用了現(xiàn)有的模型參數(shù),通過并行計(jì)算來實(shí)現(xiàn)性能的提升。
我們可以將傳統(tǒng)單一流模型比作一條單行道,數(shù)據(jù)依次通過,效率受限于道路的寬度(即模型參數(shù))。而 PARSCALE 就像多車道的并行道路,多個(gè)數(shù)據(jù)流可以同時(shí)前行,大大提升了運(yùn)輸(計(jì)算)效率。例如,當(dāng)處理一個(gè)自然語(yǔ)言推理任務(wù)時(shí),PARSCALE 可以同時(shí)從多個(gè)角度對(duì)輸入文本進(jìn)行分析,每個(gè)并行流關(guān)注文本的不同特征或語(yǔ)義方面。然后,通過對(duì)這些流的輸出進(jìn)行動(dòng)態(tài)加權(quán)聚合,模型能夠綜合各個(gè)角度的信息,做出更準(zhǔn)確的推理判斷。
輸入變換與輸出聚合策略的細(xì)化
在 PARSCALE 中,輸入變換采用前綴調(diào)優(yōu)方法。首先將輸入 x 復(fù)制成 P 個(gè)平行副本,然后在每個(gè)副本的輸入嵌入中添加獨(dú)特的前綴標(biāo)識(shí)。這些前綴在模型的每一層中作為鍵值(KV)緩存的一部分,用于區(qū)分不同的并行流。通過這種方式,模型能夠?yàn)槊總€(gè)并行流生成不同的輸出。
輸出聚合則采用動(dòng)態(tài)加權(quán)平均方法。在每個(gè) token 的生成過程中,將多個(gè)并行流的輸出連接在一起,然后通過一個(gè)多層感知機(jī)(MLP)將其轉(zhuǎn)換為長(zhǎng)度為 P 的向量,作為聚合權(quán)重。為了確保權(quán)重的合理性,使用 softmax 函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化處理。在訓(xùn)練初期,模型可能會(huì)將幾乎所有的權(quán)重分配給少數(shù)幾個(gè)并行流,導(dǎo)致其他并行流的權(quán)重接近于零。為了解決這一問題,PARSCALE 引入了標(biāo)簽平滑技術(shù),為每個(gè)權(quán)重設(shè)置了一個(gè)非零的最小值,從而確保每個(gè)并行流都能獲得一定的梯度更新,避免了負(fù)載不均衡的問題。
以下是輸出聚合的關(guān)鍵代碼片段:
import torch
import torch.nn as nn
import torch.nn.functional as F
classDynamicWeightAggregation(nn.Module):
def__init__(self, input_dim, num_streams):
super(DynamicWeightAggregation, self).__init__()
self.mlp = nn.Linear(input_dim * num_streams, num_streams)
self.num_streams = num_streams
defforward(self, streams):
# streams shape: (batch_size, num_streams, token_dim)
batch_size, num_streams, token_dim = streams.shape
# Concatenate all streams
concat_streams = streams.view(batch_size, -1)
# Compute weights
weights = self.mlp(concat_streams)
weights = F.softmax(weights, dim=1)
# Apply label smoothing
epsilon = 0.1
weights = weights * (1 - epsilon) + epsilon / self.num_streams
# Weighted sum
aggregated = torch.bmm(weights.unsqueeze(1), streams).squeeze(1)
return aggregated
與其他擴(kuò)展策略的對(duì)比深化
與其他擴(kuò)展策略相比,PARSCALE 在多個(gè)方面具有顯著優(yōu)勢(shì)。以下表格對(duì)比了 PARSCALE 與其他主流擴(kuò)展策略的特點(diǎn):
方法 | 推理時(shí)間成本 | 推理空間成本 | 訓(xùn)練成本 | 是否需要專用策略 |
Dense Scaling | 中等 | 高 | 僅預(yù)訓(xùn)練 | 否 |
MoE Scaling | 低 | 高 | 僅預(yù)訓(xùn)練 | 負(fù)載均衡 |
Inference-Time Scaling | 高 | 中等 | 后訓(xùn)練 | 需要 RL / 獎(jiǎng)勵(lì)數(shù)據(jù) |
PARSCALE | 中等 | 中等 | 預(yù)訓(xùn)練或后訓(xùn)練 | 否 |
PARSCALE 的優(yōu)勢(shì)明顯。在處理海量數(shù)據(jù)的 LLM 系統(tǒng)中,Dense Scaling 由于內(nèi)存需求巨大,很難在普通的服務(wù)器上部署。而 PARSCALE 能夠在有限的內(nèi)存下高效地完成并行計(jì)算。
在需要快速響應(yīng)的諸如智能客服系統(tǒng)中,與 Inference-Time Scaling 的高時(shí)間成本相比,PARSCALE 能在保證推理質(zhì)量的同時(shí)大幅縮短響應(yīng)時(shí)間。
并行擴(kuò)展法則
并行擴(kuò)展法則中的關(guān)鍵參數(shù)詳解
并行流數(shù)量 P
并行流數(shù)量 P 是 PARSCALE 的核心參數(shù)之一,表示在訓(xùn)練和推理過程中同時(shí)處理的輸入流數(shù)量。增大 P 可以顯著提升模型的并行計(jì)算能力,從而增強(qiáng)模型性能。例如,當(dāng) P 從 1 增加到 8 時(shí),模型的推理能力可提升數(shù)倍。在實(shí)際應(yīng)用中,P 的選擇需結(jié)合硬件資源和任務(wù)復(fù)雜度進(jìn)行優(yōu)化。若 P 過大,可能導(dǎo)致內(nèi)存占用增加和計(jì)算資源浪費(fèi);若 P 過小,則無法充分發(fā)揮 PARSCALE 的并行優(yōu)勢(shì)。
模型參數(shù)數(shù)量 N
模型參數(shù)數(shù)量 N 直接影響模型的表達(dá)能力和計(jì)算復(fù)雜度。在 PARSCALE 中,雖然通過并行計(jì)算提升了性能,但模型參數(shù)數(shù)量仍起著基礎(chǔ)性作用。假設(shè)模型參數(shù)數(shù)量為 1.6B,當(dāng) P 從 1 增加到 8 時(shí),模型性能大幅提升,但若 N 過小,即使增大 P,性能提升也有限。因此,需在模型參數(shù)規(guī)模和并行流數(shù)量之間找到最佳平衡。一般而言,對(duì)于復(fù)雜任務(wù)如代碼生成,N 需達(dá)到一定規(guī)模(如數(shù)億參數(shù))才能充分展現(xiàn) PARSCALE 的優(yōu)勢(shì)。
指數(shù) α
指數(shù) α 是衡量模型損失隨參數(shù)和并行計(jì)算變化的敏感度參數(shù)。在損失公式中,α 決定了模型對(duì)參數(shù)擴(kuò)展和并行計(jì)算擴(kuò)展的響應(yīng)程度。經(jīng)過實(shí)驗(yàn)驗(yàn)證,在 Stack-V2-Python 數(shù)據(jù)集上,α 約為 0.189,表明模型損失對(duì)參數(shù)和并行計(jì)算變化較為敏感。當(dāng) α 較大時(shí),參數(shù)擴(kuò)展對(duì)性能提升效果顯著;當(dāng) α 較小時(shí),并行擴(kuò)展的作用更為突出。例如,對(duì)于 α = 0.2 的模型,并行流數(shù)量 P 增加一倍,相當(dāng)于參數(shù)擴(kuò)展約 1.5 倍;而對(duì)于 α = 0.1 的模型,同樣的 P 增加效果相當(dāng)于參數(shù)擴(kuò)展約 3 倍。
DIVERSITY 參數(shù)
DIVERSITY 參數(shù)反映了不同并行流輸出之間的差異性程度,是衡量并行流獨(dú)立性和互補(bǔ)性的關(guān)鍵指標(biāo)。其值越大,表示并行流之間的差異性越顯著,模型性能提升潛力越大。DIVERSITY 受并行流相關(guān)系數(shù) ρ 的影響,當(dāng) ρ = 0 時(shí),并行流獨(dú)立,DIVERSITY 最大,模型損失與 P 呈現(xiàn)冪律關(guān)系(L ∝ P?1)。若并行流相關(guān)性較高(ρ 接近 1),則 DIVERSITY 較小,性能提升受限。在實(shí)驗(yàn)中發(fā)現(xiàn),當(dāng) P = 8 時(shí),不同模型的 DIVERSITY 值差異顯著,如代碼生成任務(wù)中 DIVERSITY 較高,而常識(shí)問答任務(wù)中相對(duì)較低,表明不同類型任務(wù)對(duì)并行流差異性的需求不同。
并行擴(kuò)展法則的理論分析
從理論上來說,PARSCALE 的損失函數(shù)遵循一種新的擴(kuò)展法則。研究者借鑒了 Chinchilla 擴(kuò)展法則,并結(jié)合信息論中的相關(guān)概念,深入探討了模型損失與參數(shù)、并行計(jì)算量之間的關(guān)系。假設(shè)每個(gè)并行流的預(yù)測(cè)遵循 Chinchilla 擴(kuò)展法則:
其中, 是第 個(gè)并行流的交叉熵?fù)p失, 是模型參數(shù)數(shù)量,、 和 是正的常數(shù), 表示自然文本的熵。
在 PARSCALE 中,通過聚合 個(gè)并行流的輸出,最終預(yù)測(cè)的損失 可以表示為:
其中,DIVERSITY 是一個(gè)衡量并行流之間多樣性的參數(shù)。當(dāng)并行流之間的相關(guān)系數(shù) 時(shí),即并行流之間獨(dú)立,損失 與 呈現(xiàn)冪律關(guān)系(即 )。這表明通過增加并行計(jì)算量 ,可以有效地降低模型的損失,提升模型性能。
進(jìn)一步的理論分析表明,在一定條件下,P 次并行計(jì)算的擴(kuò)展效果類似于將模型參數(shù)按 的比例進(jìn)行擴(kuò)展。例如,當(dāng) 時(shí),模型的性能提升相當(dāng)于參數(shù)擴(kuò)展了 倍。這種理論依據(jù)為 PARSCALE 的有效性提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)。
基于420億個(gè) token 訓(xùn)練的、按參數(shù)數(shù)量和并行流數(shù)量P縮放的大型語(yǔ)言模型(LLM)的損失情況。每個(gè)點(diǎn)表示一次訓(xùn)練運(yùn)行的損失值。圖中展示了根據(jù)公式擬合的縮放定律曲線,并標(biāo)注了擬合參數(shù)(E、A、k、α)以及擬合優(yōu)度R2
實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證并行擴(kuò)展法則的有效性,研究者在 Stack-V2(Python 子集)和 Pile 語(yǔ)料庫(kù)上進(jìn)行了大規(guī)模的預(yù)訓(xùn)練實(shí)驗(yàn)。實(shí)驗(yàn)涵蓋了多種模型參數(shù)規(guī)模(從 0.5B 到 4.4B)和不同的并行流數(shù)量(從 1 到 8)。實(shí)驗(yàn)結(jié)果顯示,隨著并行流數(shù)量 的增加,模型的損失呈現(xiàn)出明顯的下降趨勢(shì),驗(yàn)證了并行擴(kuò)展法則的正確性。
在 Stack-V2(Python 子集)數(shù)據(jù)集上,當(dāng)模型參數(shù)為 1.6B 時(shí),隨著 從 1 增加到 8,訓(xùn)練損失從 1.0817 下降到 0.9794,驗(yàn)證損失也從 1.1131 下降到 0.9794。在 Pile 語(yǔ)料庫(kù)上,當(dāng)模型參數(shù)為 4.4B 時(shí),隨著 從 1 增加到 8,訓(xùn)練損失從 1.8451 下降到 1.7772,驗(yàn)證損失從 1.8218 下降到 1.7772。這些數(shù)據(jù)表明,PARSCALE 在不同的數(shù)據(jù)集和模型規(guī)模下都能有效提升模型性能。
預(yù)測(cè)的PARSCALE損失等高線。每條等高線表示具有相似性能的(參數(shù),P)組合
通過對(duì)比不同 值和模型參數(shù)組合下的學(xué)習(xí)曲線和驗(yàn)證曲線,發(fā)現(xiàn),在訓(xùn)練初期,并行流數(shù)量較多的模型收斂速度更快。例如,在 Pile 語(yǔ)料庫(kù)上,當(dāng) 時(shí),模型在訓(xùn)練初期的損失下降速度比 快出 30%。這進(jìn)一步證明了并行擴(kuò)展法則在實(shí)際訓(xùn)練過程中的有效性。
Stack-V2-Python和The Pile的訓(xùn)練損失,采用0.98的指數(shù)移動(dòng)平均進(jìn)行平滑處理
上圖作為實(shí)驗(yàn)結(jié)果的補(bǔ)充,直觀展示模型在不同數(shù)據(jù)集和參數(shù)組合下的訓(xùn)練損失變化趨勢(shì),進(jìn)一步證明并行擴(kuò)展法則的正確性。
關(guān)鍵結(jié)論的拓展
在強(qiáng)調(diào) P 次并行計(jì)算擴(kuò)展相當(dāng)于將參數(shù)按 的比例進(jìn)行擴(kuò)展等重要結(jié)論的基礎(chǔ)上,進(jìn)一步探討了這些結(jié)論在不同場(chǎng)景下的適用性和局限性。例如,在文本生成任務(wù)中,模型參數(shù)與并行計(jì)算量的最佳配比關(guān)系可能與在機(jī)器翻譯任務(wù)中有所不同。通過大量實(shí)驗(yàn),發(fā)現(xiàn),在文本生成任務(wù)中,當(dāng) 值在 4 到 8 之間時(shí),模型的性能提升最為顯著,而參數(shù)擴(kuò)展的收益相對(duì)較小。而在機(jī)器翻譯任務(wù)中,參數(shù)擴(kuò)展和并行擴(kuò)展的組合使用能夠取得最佳效果。
此外,還發(fā)現(xiàn),對(duì)于不同類型的任務(wù)(如情感分析、問答系統(tǒng)等),可以通過靈活調(diào)整 值來達(dá)到最佳性能。例如,在情感分析任務(wù)中,由于任務(wù)相對(duì)簡(jiǎn)單,較小的 值(如 2 或 4)即可取得較好的效果,而過大的 值可能會(huì)導(dǎo)致過擬合。在問答系統(tǒng)中,較大的 值(如 8)能夠更好地捕捉問題和答案之間的復(fù)雜關(guān)系,提高回答的準(zhǔn)確性和相關(guān)性。
另外,PARSCALE 在數(shù)據(jù)重復(fù)使用的情況下也能展現(xiàn)出優(yōu)勢(shì)。如下圖所示,在 OpenWebText 數(shù)據(jù)集上重復(fù)訓(xùn)練多個(gè)周期時(shí),可以發(fā)現(xiàn) PARSCALE 模型相比參數(shù)擴(kuò)展模型在抵抗過擬合方面表現(xiàn)出更強(qiáng)的穩(wěn)定性。當(dāng) P = 2 時(shí),PARSCALE 模型的驗(yàn)證損失在第五個(gè) epoch 突然增加時(shí)仍能保持相對(duì)較低的水平,相比參數(shù)擴(kuò)展模型(N = 5B,P = 1)展現(xiàn)出更強(qiáng)的泛化能力。
在數(shù)據(jù)重復(fù)使用的情況下,PARSCALE 模型相比參數(shù)擴(kuò)展模型在抵抗過擬合方面的優(yōu)勢(shì)。
在OpenWebText上進(jìn)行多次重復(fù)訓(xùn)練周期的訓(xùn)練損失。在第五個(gè)訓(xùn)練周期時(shí),驗(yàn)證損失突然增加,而計(jì)算量更大的模型(N = 3B,P = 2)相比參數(shù)量更多的模型(N = 5B,P = 1)表現(xiàn)出更強(qiáng)的抗過擬合能力
推理成本分析
內(nèi)存成本對(duì)比
研究者對(duì) PARSCALE 和參數(shù)擴(kuò)展方法的內(nèi)存使用情況進(jìn)行了比較。由于 PARSCALE 幾乎不增加額外參數(shù),且 KV 緩存大小的增長(zhǎng)遠(yuǎn)小于模型參數(shù)所占用的 GPU 內(nèi)存,其內(nèi)存效率顯著優(yōu)于參數(shù)擴(kuò)展方法。例如,當(dāng)并行流數(shù)量 時(shí),KV 緩存大小的增加遠(yuǎn)低于參數(shù)擴(kuò)展方法中模型參數(shù)的增長(zhǎng),這使得 PARSCALE 在資源受限的環(huán)境中具有顯著優(yōu)勢(shì)。
時(shí)間成本對(duì)比
在時(shí)間成本方面,PARSCALE 通過將內(nèi)存瓶頸轉(zhuǎn)化為計(jì)算瓶頸,并利用對(duì) GPU 友好的并行計(jì)算,有效降低了推理延遲。論文中的實(shí)驗(yàn)數(shù)據(jù)顯示,與參數(shù)擴(kuò)展方法相比,PARSCALE 在小批量推理時(shí)的延遲增加顯著減少。對(duì)于 1.6B 模型,當(dāng)擴(kuò)展至相同的性能提升時(shí),PARSCALE 的內(nèi)存增加僅為參數(shù)擴(kuò)展的 1/22,延遲增加僅為 1/6。這表明 PARSCALE 在推理效率上具有顯著優(yōu)勢(shì),尤其適合低資源邊緣設(shè)備。
下圖直觀展示了模型容量(以損失表示)與推理空間-時(shí)間成本之間的關(guān)系。圖中比較了不同參數(shù)規(guī)模(1.6B、2.8B、4.4B)和批量大小(1、2、4、8)下的情況,藍(lán)色箭頭表示參數(shù)擴(kuò)展,灰色箭頭表示并行擴(kuò)展。這些圖表清晰地表明,PARSCALE 在推理成本上具有顯著優(yōu)勢(shì)。
模型容量(由損失值表示)與推理時(shí)空成本成比例,涉及三個(gè)參數(shù)(16億、28億和44億)以及批量大小∈{1, 2, 4, 8}。結(jié)果是基于輸入/輸出標(biāo)記∈{64, 128, 256, 512}的平均值。藍(lán)色箭頭表示參數(shù)擴(kuò)展;灰色箭頭代表并行擴(kuò)展
訓(xùn)練數(shù)據(jù)擴(kuò)展與應(yīng)用場(chǎng)景
兩階段預(yù)訓(xùn)練策略的關(guān)聯(lián)性強(qiáng)化
PARSCALE 的兩階段預(yù)訓(xùn)練策略在實(shí)際應(yīng)用中展現(xiàn)出了強(qiáng)大的優(yōu)勢(shì)。在第一階段,模型通過傳統(tǒng)預(yù)訓(xùn)練方法學(xué)習(xí)基礎(chǔ)的語(yǔ)言模式和語(yǔ)義信息。這一階段的訓(xùn)練為模型奠定了堅(jiān)實(shí)的基礎(chǔ),使其具備了基本的語(yǔ)言理解和生成能力。在第二階段,PARSCALE 引入并行擴(kuò)展訓(xùn)練,利用少量的 token 高效地提升模型性能。這種策略既降低了訓(xùn)練成本,還能夠針對(duì)特定任務(wù)進(jìn)行優(yōu)化。
下圖展示了兩階段訓(xùn)練的損失變化情況,清晰地反映了第二階段對(duì)模型性能的提升。
兩階段訓(xùn)練的損失,使用權(quán)重為0.95的指數(shù)移動(dòng)平均進(jìn)行平滑
在第一階段訓(xùn)練中,模型使用了大量的通用文本數(shù)據(jù),學(xué)習(xí)了語(yǔ)言的語(yǔ)法、詞匯和基本語(yǔ)義。在第二階段,模型在數(shù)據(jù)上進(jìn)行并行擴(kuò)展訓(xùn)練,通過增加并行流數(shù)量 ,模型能夠從多個(gè)角度分析內(nèi)容,識(shí)別出各種類型的錯(cuò)誤和問題。實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng) 從 1 增加到 8 時(shí),任務(wù)準(zhǔn)確率提升了 14 個(gè)百分點(diǎn),而訓(xùn)練時(shí)間僅增加了 10%。這充分展示了兩階段預(yù)訓(xùn)練策略與 PARSCALE 并行擴(kuò)展范式的緊密關(guān)聯(lián)和高效性。
在現(xiàn)成預(yù)訓(xùn)練模型上的應(yīng)用關(guān)聯(lián)性深化
將 PARSCALE 應(yīng)用于現(xiàn)成的預(yù)訓(xùn)練模型 Qwen-2.5 的實(shí)驗(yàn)結(jié)果進(jìn)一步證明了其有效性。在持續(xù)預(yù)訓(xùn)練和參數(shù)高效微調(diào)過程中,模型性能的提升與 PARSCALE 的并行擴(kuò)展原理密切相關(guān)。例如,在代碼生成任務(wù)中,經(jīng)過 PARSCALE 微調(diào)后的模型生成的代碼效率和正確性顯著提升。模型生成的代碼在運(yùn)行速度上比微調(diào)前快了 30%,代碼的正確率提高了 25%。
下圖展示了 Qwen-2.5 模型在不同數(shù)據(jù)集上的持續(xù)預(yù)訓(xùn)練損失變化,以及在 Stack-V2 (Python) 數(shù)據(jù)集上的微調(diào)性能表現(xiàn)。從圖中可以看出,PARSCALE 微調(diào)后的模型在代碼生成任務(wù)中表現(xiàn)出了顯著的性能提升。這表明 PARSCALE 能夠通過并行計(jì)算捕捉代碼生成中的多種模式和邏輯關(guān)系,從而提高生成代碼的質(zhì)量。
Qwen-2.5 模型持續(xù)預(yù)訓(xùn)練與微調(diào)性能
在數(shù)學(xué)問題求解任務(wù)中,PARSCALE 通過動(dòng)態(tài)并行擴(kuò)展適應(yīng)不同應(yīng)用場(chǎng)景的優(yōu)勢(shì)也得到了充分體現(xiàn)。微調(diào)后的模型在解答數(shù)學(xué)問題時(shí),能夠生成更簡(jiǎn)潔、更準(zhǔn)確的解答步驟。例如,在 GSM8K 數(shù)據(jù)集上,模型的準(zhǔn)確率從原來的 35% 提升至 50%。這表明 PARSCALE 能夠通過并行計(jì)算捕捉數(shù)學(xué)問題的多種解法和邏輯關(guān)系,從而提高解答的準(zhǔn)確性和多樣性。
探討其他相關(guān)研究
推理時(shí)間擴(kuò)展
推理時(shí)間擴(kuò)展(inference-time scaling)方法,如 GPT-o1 等模型通過擴(kuò)展串行計(jì)算增加思維鏈長(zhǎng)度,雖然在處理復(fù)雜推理任務(wù)時(shí)取得了一定的成果,但在效率和準(zhǔn)確性方面仍存在不足。例如,GPT-o1 在解答復(fù)雜數(shù)學(xué)問題時(shí),雖然通過增加推理 token 數(shù)量能夠生成更詳細(xì)的解答步驟,但其準(zhǔn)確率僅提高了 10%,而推理時(shí)間卻增加了 5 倍。相比之下,PARSCALE 通過并行計(jì)算擴(kuò)展,在保證推理質(zhì)量的同時(shí)顯著降低了時(shí)間和成本。
此外,無需額外訓(xùn)練的推理時(shí)間擴(kuò)展方法,如Beam-Search、自一致性、多數(shù)投票等,雖然在某些任務(wù)上能夠取得較好的效果,但其性能受限于模型本身的推理能力。PARSCALE 在訓(xùn)練階段就引入并行計(jì)算擴(kuò)展,能夠更好地提升模型的推理能力。例如,在對(duì)比束搜索和 PARSCALE 在文本生成任務(wù)中的表現(xiàn)時(shí)發(fā)現(xiàn),PARSCALE 生成的文本在連貫性和相關(guān)性方面比束搜索高出 20%,同時(shí)推理時(shí)間減少了 40%。這表明 PARSCALE 與這些方法具有互補(bǔ)性,可以通過結(jié)合使用進(jìn)一步提升模型性能。
下表展示了 PARSCALE 與束搜索的性能對(duì)比,幫助我們更直觀地理解兩者在數(shù)學(xué)推理任務(wù)上的表現(xiàn)差異。
PARSCALE 與 Beam-Search 的性能對(duì)比
Classifier-Free Guidance(CFG)的關(guān)聯(lián)拓展
CFG 的核心思想是通過擾動(dòng)輸入來引導(dǎo)模型生成更符合預(yù)期的輸出。在文本生成任務(wù)中,CFG 通過去除條件信息來獲得第二個(gè)輸出流,然后與正常輸出流進(jìn)行對(duì)比和聚合,從而提升生成文本的質(zhì)量。PARSCALE 在此基礎(chǔ)上進(jìn)一步發(fā)展,通過增加多個(gè)并行流,并采用動(dòng)態(tài)加權(quán)聚合方法,能夠更靈活地控制生成文本的風(fēng)格和內(nèi)容。
例如,在情感分析任務(wù)中,CFG 通過擾動(dòng)輸入文本的情感傾向來生成對(duì)比輸出流,從而增強(qiáng)模型對(duì)情感特征的識(shí)別能力。而 PARSCALE 則通過多個(gè)并行流從不同角度分析文本的情感特征,然后動(dòng)態(tài)聚合這些流的輸出,使得模型能夠更準(zhǔn)確地識(shí)別復(fù)雜情感。實(shí)驗(yàn)數(shù)據(jù)顯示,PARSCALE 在情感分析任務(wù)中的準(zhǔn)確率比 CFG 高出 15%,同時(shí)推理速度提升了 30%。這表明 PARSCALE 在提升模型性能方面具有更顯著的優(yōu)勢(shì)。
模型集成的對(duì)比深化
與傳統(tǒng)模型集成方法相比,PARSCALE 在多個(gè)方面具有顯著優(yōu)勢(shì)。傳統(tǒng)集成方法通常需要訓(xùn)練多個(gè)獨(dú)立的模型,可這增加了訓(xùn)練時(shí)間和計(jì)算資源的消耗,還在推理階段需要同時(shí)運(yùn)行多個(gè)模型,導(dǎo)致推理效率低下。而 PARSCALE 通過共享參數(shù)和動(dòng)態(tài)加權(quán)聚合,在不顯著增加資源消耗的情況下實(shí)現(xiàn)了類似甚至更優(yōu)的集成效果。
例如,在一個(gè)圖像分類任務(wù)中,傳統(tǒng)集成方法需要訓(xùn)練 5 個(gè)獨(dú)立的模型,每個(gè)模型的參數(shù)量為 100M,總參數(shù)量達(dá)到 500M,訓(xùn)練時(shí)間為 10 天。而 PARSCALE 僅需一個(gè)模型,通過設(shè)置并行流數(shù)量 ,即可實(shí)現(xiàn)相當(dāng)?shù)男阅埽铱倕?shù)量?jī)H為 105M,訓(xùn)練時(shí)間縮短至 3 天。在推理階段,PARSCALE 的推理速度比傳統(tǒng)集成方法快出 4 倍,同時(shí)準(zhǔn)確率提高了 5%。這充分展示了 PARSCALE 在模型集成方面的高效性和優(yōu)越性。
語(yǔ)言模型擴(kuò)展法則的拓展融合
PARSCALE 對(duì)現(xiàn)有的 Chinchilla 擴(kuò)展法則進(jìn)行了拓展和補(bǔ)充,提出了一個(gè)新的并行擴(kuò)展法則。通過將并行計(jì)算量納入考慮,PARSCALE 在理論上和實(shí)踐中都證明了其有效性。與模型集成擴(kuò)展法則相比,PARSCALE 更加靈活,能夠根據(jù)實(shí)際需求動(dòng)態(tài)調(diào)整并行流數(shù)量 ,從而在不同的應(yīng)用場(chǎng)景下實(shí)現(xiàn)最佳性能。
例如,在一個(gè)大規(guī)模文本生成任務(wù)中,通過結(jié)合 Chinchilla 擴(kuò)展法則和 PARSCALE 的并行擴(kuò)展法則,模型的性能得到了顯著提升。當(dāng)模型參數(shù)從 1B 擴(kuò)展到 8B,同時(shí)并行流數(shù)量 從 1 增加到 8 時(shí),文本生成的質(zhì)量評(píng)分從 65 分提升至 85 分。這表明 PARSCALE 在現(xiàn)有擴(kuò)展法則的基礎(chǔ)上,能夠更有效地利用計(jì)算資源,提升模型性能。通過建立統(tǒng)一的理論框架,將不同擴(kuò)展法則納入其中,PARSCALE 為未來語(yǔ)言模型的擴(kuò)展研究提供了更全面、更系統(tǒng)的理論指導(dǎo)。
討論與未來工作
訓(xùn)練推理最優(yōu)語(yǔ)言模型的路徑探索
在實(shí)際應(yīng)用中,確定在不同推理預(yù)算下(如內(nèi)存、延遲和批量大小)參數(shù)與并行計(jì)算的分配是一個(gè)關(guān)鍵問題。以實(shí)時(shí)翻譯系統(tǒng)為例,我們需要在保證翻譯準(zhǔn)確率的同時(shí),盡可能降低翻譯延遲。通過建立數(shù)學(xué)模型并進(jìn)行模擬實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)內(nèi)存預(yù)算為 4GB,延遲預(yù)算為 2 秒,批量大小為 32 時(shí),將參數(shù)擴(kuò)展比例設(shè)置為 60%,并行擴(kuò)展比例設(shè)置為 40%(即 ),能夠使模型的翻譯準(zhǔn)確率達(dá)到最高。
比如,在實(shí)時(shí)翻譯系統(tǒng)中,對(duì)不同分配方案進(jìn)行了測(cè)試。當(dāng)參數(shù)擴(kuò)展比例為 80%(即模型參數(shù)擴(kuò)展 2 倍),并行擴(kuò)展比例為 20%(即 )時(shí),翻譯準(zhǔn)確率為 82%,延遲為 1.5 秒;當(dāng)參數(shù)擴(kuò)展比例為 60%,并行擴(kuò)展比例為 40%(即 )時(shí),翻譯準(zhǔn)確率提升至 88%,延遲仍保持在 1.5 秒;而當(dāng)參數(shù)擴(kuò)展比例降至 40%,并行擴(kuò)展比例升至 60%(即 )時(shí),翻譯準(zhǔn)確率反而下降至 85%,延遲增加至 2.2 秒。這表明存在一個(gè)最優(yōu)的分配方案,能夠使模型性能達(dá)到最佳。通過進(jìn)一步收集和分析不同類型 LLM 在不同應(yīng)用場(chǎng)景下的實(shí)際數(shù)據(jù),可以更準(zhǔn)確地預(yù)測(cè)不同分配方案對(duì)模型性能的影響,為實(shí)際應(yīng)用中的模型部署和優(yōu)化提供具體指導(dǎo)。
并行擴(kuò)展法則的進(jìn)一步理論突破
目前,直接建模 DIVERSITY 的困難限制了并行擴(kuò)展法則的理論深度。為了解決這一問題,研究者計(jì)劃結(jié)合信息論和統(tǒng)計(jì)學(xué)中的前沿研究成果,提出新的理論方法和數(shù)學(xué)工具。例如,利用深度學(xué)習(xí)中的表示學(xué)習(xí)理論,分析不同并行流在模型內(nèi)部的特征表示差異及其對(duì) DIVERSITY 的影響。通過開展大量實(shí)驗(yàn),收集不同模型架構(gòu)、不同數(shù)據(jù)集下的實(shí)驗(yàn)數(shù)據(jù),建立 DIVERSITY 與 的經(jīng)驗(yàn)?zāi)P汀?/span>
在初步實(shí)驗(yàn)中,發(fā)現(xiàn)當(dāng)并行流數(shù)量 增加時(shí),DIVERSITY 呈現(xiàn)先上升后下降的趨勢(shì)。這表明存在一個(gè)最優(yōu)的 值,能夠使 DIVERSITY 最大化。例如,在某文本分類任務(wù)中,當(dāng) 時(shí),DIVERSITY 達(dá)到最大值,模型性能也最佳。研究者計(jì)劃通過進(jìn)一步的實(shí)驗(yàn)和理論分析,探索是否存在超過 的增長(zhǎng)率以及 遠(yuǎn)大于 8 時(shí)的性能上限等問題,從而為并行擴(kuò)展法則的理論完善提供實(shí)證依據(jù)。
兩階段策略的最優(yōu)分界點(diǎn)的實(shí)踐指導(dǎo)
為了確定不同模型的最佳兩階段策略分界點(diǎn),研究者建立了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化模型。通過收集和分析不同類型 LLM 在采用兩階段預(yù)訓(xùn)練策略時(shí)的實(shí)際數(shù)據(jù),發(fā)現(xiàn)模型規(guī)模和訓(xùn)練數(shù)據(jù)特點(diǎn)對(duì)最佳分界點(diǎn)有顯著影響。例如,對(duì)于較小規(guī)模的模型(如參數(shù)量在 1B 到 5B 之間),第一階段使用 80% 的訓(xùn)練數(shù)據(jù),第二階段使用 20% 的數(shù)據(jù)進(jìn)行并行擴(kuò)展訓(xùn)練,能夠取得最佳性能。而對(duì)于較大規(guī)模的模型(如參數(shù)量超過 10B),第一階段使用 90% 的數(shù)據(jù),第二階段使用 10% 的數(shù)據(jù)進(jìn)行并行擴(kuò)展訓(xùn)練更為合適。
總結(jié)
PARSCALE 作為一種語(yǔ)言模型并行擴(kuò)展范式,帶來了多方面的創(chuàng)新與價(jià)值。首先,它提出了通過增加并行計(jì)算來提升模型能力的理念,打破了傳統(tǒng)參數(shù)擴(kuò)展和推理時(shí)間擴(kuò)展的局限。其次,PARSCALE 通過理論推導(dǎo)和大規(guī)模實(shí)驗(yàn)驗(yàn)證了并行擴(kuò)展法則的有效性,證明了 P 次并行計(jì)算擴(kuò)展相當(dāng)于將模型參數(shù)按 的比例進(jìn)行擴(kuò)展。此外,PARSCALE 在推理效率和模型能力提升方面表現(xiàn)出色,尤其適用于低資源邊緣設(shè)備。
實(shí)驗(yàn)部分的數(shù)據(jù)更是令人信服。看到那些具體的數(shù)值對(duì)比,比如內(nèi)存使用減少 22 倍,延遲增加僅為 6 倍,與傳統(tǒng)參數(shù)擴(kuò)展方法相比的巨大優(yōu)勢(shì),讓我深刻意識(shí)到 PARSCALE 的實(shí)際應(yīng)用價(jià)值。這不僅僅是一個(gè)理論上的模型,它已經(jīng)在多個(gè)數(shù)據(jù)集和任務(wù)中證明了自己的實(shí)力,從代碼生成到常識(shí)問答,PARSCALE 都展現(xiàn)出了卓越的性能。
讀完關(guān)于 PARSCALE 的論文讓我想起另外一個(gè) Repeat 重復(fù)采樣的論文,畢竟這已是在實(shí)際實(shí)踐中應(yīng)用的,重復(fù)采樣本身就是通過并行的 continuous batching 來實(shí)現(xiàn)的。我通過對(duì) Qwen 團(tuán)隊(duì)研究的這個(gè) PARSCALE 的了解,對(duì)并行擴(kuò)展有了更進(jìn)一步的認(rèn)知。通過并行計(jì)算流的引入和動(dòng)態(tài)輸出聚合,PARSCALE 在不大幅增加模型參數(shù)的情況下,實(shí)現(xiàn)了顯著的性能提升。PARSCALE 為大型語(yǔ)言模型的Scaling提供了新的思路,同時(shí)也為人工智能技術(shù)在業(yè)務(wù)上的落地注入了新的活力。