Qwen：PARSCALE 讓語(yǔ)言模型在并行中飛躍

作者：肆零柒 2025-06-11 02:00:00

傳統(tǒng)的參數(shù)擴(kuò)展和推理時(shí)間擴(kuò)展方法面臨著內(nèi)存和時(shí)間成本的雙重困境。PARSCALE，作為一種全新的并行擴(kuò)展范式，通過增加并行計(jì)算流并在訓(xùn)練和推理過程中動(dòng)態(tài)聚合輸出，不僅顯著提升了模型性能，還大幅降低了推理成本。

大家好，我是肆〇柒。今天，我們來聊聊大型語(yǔ)言模型（LLM）領(lǐng)域的一項(xiàng)研究——PARSCALE。在人工智能快速發(fā)展的當(dāng)下，大型語(yǔ)言模型應(yīng)用前景無比廣闊，然而，隨著模型規(guī)模的不斷膨脹，我們正面臨著前所未有的挑戰(zhàn)。以 DeepSeek-V3 模型為例，其參數(shù)量已達(dá)到 672B，這使得邊緣設(shè)備部署時(shí)內(nèi)存需求飆升，極大地限制了模型的實(shí)際應(yīng)用范圍。與此同時(shí)，為提升推理能力而增加生成推理 token 數(shù)量的方法，也帶來了顯著的時(shí)間和成本問題。例如，有研究發(fā)現(xiàn)某些強(qiáng)大模型在解答像“2+3=？”這樣簡(jiǎn)單的問題時(shí)，會(huì)生成多達(dá) 900 個(gè)推理 token，耗費(fèi)數(shù)秒甚至數(shù)十秒的時(shí)間。這些問題讓我們不得不思考：是否存在一種更高效、更經(jīng)濟(jì)的模型擴(kuò)展方式？

該研究由浙江大學(xué)和 Qwen 團(tuán)隊(duì)合作完成，提出了 PARSCALE 方法。它是一種全新的并行擴(kuò)展范式，有望突破現(xiàn)有擴(kuò)展方法的局限，為 LLM 的發(fā)展提供新的思路。接下來，讓我們一起看看這項(xiàng)研究的內(nèi)容。

參數(shù)擴(kuò)展的困境

隨著大型語(yǔ)言模型在各行各業(yè)的應(yīng)用不斷深入，模型參數(shù)量的增加已成為提升性能的主要手段之一。然而，這種方式卻帶來了沉重的內(nèi)存負(fù)擔(dān)。在醫(yī)療領(lǐng)域，智能診斷系統(tǒng)需要處理海量的醫(yī)療影像和病歷數(shù)據(jù)。當(dāng)模型參數(shù)量不斷增加時(shí)，所需的內(nèi)存資源呈指數(shù)級(jí)增長(zhǎng)。這意味著云端服務(wù)器需要投入大量資金用于存儲(chǔ)設(shè)備的升級(jí)，而對(duì)于邊緣設(shè)備，如移動(dòng)醫(yī)療檢測(cè)儀，由于內(nèi)存容量有限，往往無法本地運(yùn)行大型模型，這影響了診斷效率，還可能涉及數(shù)據(jù)隱私問題，因?yàn)閿?shù)據(jù)需要傳輸?shù)皆贫诉M(jìn)行處理。

推理時(shí)間擴(kuò)展的局限

為了提高模型的推理能力，研究人員嘗試通過增加生成推理 token 數(shù)量來增強(qiáng)模型對(duì)復(fù)雜問題的理解和解決能力。這種方法在一定程度上確實(shí)提升了模型的性能，但其時(shí)間和成本問題卻日益突出。

Classifier-Free Guidance（CFG）的啟示

研究人員發(fā)現(xiàn) Classifier-Free Guidance（CFG）在擴(kuò)散模型中的成功應(yīng)用為解決上述問題提供了重要啟示。在圖像生成領(lǐng)域，CFG 通過兩次前向傳播來提升生成圖像的質(zhì)量。首先對(duì)原始輸入進(jìn)行正常前向傳播得到一個(gè)輸出流，然后對(duì)輸入進(jìn)行擾動(dòng)（如去除條件信息）得到第二個(gè)輸出流。最后，根據(jù)預(yù)設(shè)的對(duì)比規(guī)則對(duì)這兩個(gè)流進(jìn)行聚合，從而獲得比單次前向傳播更優(yōu)的性能。實(shí)驗(yàn)數(shù)據(jù)顯示，在圖像生成任務(wù)中，CFG 相較于單次前向傳播，性能提升了 20% 至 30%。

受 CFG 的啟發(fā)，研究人員提出了一個(gè)假設(shè)：CFG 的有效性可能源于其雙倍的計(jì)算量。基于這一假設(shè)，就提出了 PARSCALE 方法。PARSCALE 是通過增加并行計(jì)算來提升模型能力，而不僅僅依賴參數(shù)擴(kuò)展或推理時(shí)間擴(kuò)展。PARSCALE 借鑒了 CFG 的核心理念，通過在訓(xùn)練和推理過程中引入多個(gè)并行流，并對(duì)這些流的輸出進(jìn)行動(dòng)態(tài)聚合，實(shí)現(xiàn)了更高效、更靈活的模型擴(kuò)展。

PARSCALE 方法論

如下圖所示，PARSCALE 的并行擴(kuò)展方式與傳統(tǒng)擴(kuò)展方式形成鮮明對(duì)比，為我們提供了一種新的思考視角來理解模型擴(kuò)展。

(1) 并行擴(kuò)展（PARSCALE）的示意圖。 (2) 在Stack-V2（Python子集）的42B tokens上對(duì)預(yù)訓(xùn)練模型進(jìn)行并行放大定律。 (3) 隨著推理成本變化的損失放大曲線。結(jié)果是根據(jù)批次大小 ∈ {1，2，4，8} 和輸入 + 輸出tokens ∈ {128，256，512，1024} 計(jì)算的平均值。

核心思想

PARSCALE 的核心思想是在不顯著增加模型參數(shù)的情況下，通過增加并行計(jì)算來提升模型的性能。傳統(tǒng)上，大型語(yǔ)言模型主要依賴于參數(shù)擴(kuò)展或推理時(shí)間擴(kuò)展來增強(qiáng)能力。然而，這兩種方法都存在明顯的局限性。PARSCALE 提出了一種新的思路，即在訓(xùn)練和推理過程中，對(duì)輸入進(jìn)行多種不同的可學(xué)習(xí)變換，生成多個(gè)并行流，然后執(zhí)行模型的并行前向傳播，最后通過動(dòng)態(tài)加權(quán)和的方式對(duì)多個(gè)流的輸出進(jìn)行聚合。這種方法充分利用了現(xiàn)有的模型參數(shù)，通過并行計(jì)算來實(shí)現(xiàn)性能的提升。

我們可以將傳統(tǒng)單一流模型比作一條單行道，數(shù)據(jù)依次通過，效率受限于道路的寬度（即模型參數(shù)）。而 PARSCALE 就像多車道的并行道路，多個(gè)數(shù)據(jù)流可以同時(shí)前行，大大提升了運(yùn)輸（計(jì)算）效率。例如，當(dāng)處理一個(gè)自然語(yǔ)言推理任務(wù)時(shí)，PARSCALE 可以同時(shí)從多個(gè)角度對(duì)輸入文本進(jìn)行分析，每個(gè)并行流關(guān)注文本的不同特征或語(yǔ)義方面。然后，通過對(duì)這些流的輸出進(jìn)行動(dòng)態(tài)加權(quán)聚合，模型能夠綜合各個(gè)角度的信息，做出更準(zhǔn)確的推理判斷。

輸入變換與輸出聚合策略的細(xì)化

在 PARSCALE 中，輸入變換采用前綴調(diào)優(yōu)方法。首先將輸入 x 復(fù)制成 P 個(gè)平行副本，然后在每個(gè)副本的輸入嵌入中添加獨(dú)特的前綴標(biāo)識(shí)。這些前綴在模型的每一層中作為鍵值（KV）緩存的一部分，用于區(qū)分不同的并行流。通過這種方式，模型能夠?yàn)槊總€(gè)并行流生成不同的輸出。

輸出聚合則采用動(dòng)態(tài)加權(quán)平均方法。在每個(gè) token 的生成過程中，將多個(gè)并行流的輸出連接在一起，然后通過一個(gè)多層感知機(jī)（MLP）將其轉(zhuǎn)換為長(zhǎng)度為 P 的向量，作為聚合權(quán)重。為了確保權(quán)重的合理性，使用 softmax 函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化處理。在訓(xùn)練初期，模型可能會(huì)將幾乎所有的權(quán)重分配給少數(shù)幾個(gè)并行流，導(dǎo)致其他并行流的權(quán)重接近于零。為了解決這一問題，PARSCALE 引入了標(biāo)簽平滑技術(shù)，為每個(gè)權(quán)重設(shè)置了一個(gè)非零的最小值，從而確保每個(gè)并行流都能獲得一定的梯度更新，避免了負(fù)載不均衡的問題。

以下是輸出聚合的關(guān)鍵代碼片段：

import torch
import torch.nn as nn
import torch.nn.functional as F

classDynamicWeightAggregation(nn.Module):
    def__init__(self, input_dim, num_streams):
        super(DynamicWeightAggregation, self).__init__()
        self.mlp = nn.Linear(input_dim * num_streams, num_streams)
        self.num_streams = num_streams

    defforward(self, streams):
        # streams shape: (batch_size, num_streams, token_dim)
        batch_size, num_streams, token_dim = streams.shape
        # Concatenate all streams
        concat_streams = streams.view(batch_size, -1)
        # Compute weights
        weights = self.mlp(concat_streams)
        weights = F.softmax(weights, dim=1)
        # Apply label smoothing
        epsilon = 0.1
        weights = weights * (1 - epsilon) + epsilon / self.num_streams
        # Weighted sum
        aggregated = torch.bmm(weights.unsqueeze(1), streams).squeeze(1)
        return aggregated

與其他擴(kuò)展策略的對(duì)比深化

與其他擴(kuò)展策略相比，PARSCALE 在多個(gè)方面具有顯著優(yōu)勢(shì)。以下表格對(duì)比了 PARSCALE 與其他主流擴(kuò)展策略的特點(diǎn)：

方法	推理時(shí)間成本	推理空間成本	訓(xùn)練成本	是否需要專用策略
Dense Scaling	中等	高	僅預(yù)訓(xùn)練	否
MoE Scaling	低	高	僅預(yù)訓(xùn)練	負(fù)載均衡
Inference-Time Scaling	高	中等	后訓(xùn)練	需要 RL / 獎(jiǎng)勵(lì)數(shù)據(jù)
PARSCALE	中等	中等	預(yù)訓(xùn)練或后訓(xùn)練	否

PARSCALE 的優(yōu)勢(shì)明顯。在處理海量數(shù)據(jù)的 LLM 系統(tǒng)中，Dense Scaling 由于內(nèi)存需求巨大，很難在普通的服務(wù)器上部署。而 PARSCALE 能夠在有限的內(nèi)存下高效地完成并行計(jì)算。

在需要快速響應(yīng)的諸如智能客服系統(tǒng)中，與 Inference-Time Scaling 的高時(shí)間成本相比，PARSCALE 能在保證推理質(zhì)量的同時(shí)大幅縮短響應(yīng)時(shí)間。

并行擴(kuò)展法則

并行擴(kuò)展法則中的關(guān)鍵參數(shù)詳解

并行流數(shù)量 P

并行流數(shù)量 P 是 PARSCALE 的核心參數(shù)之一，表示在訓(xùn)練和推理過程中同時(shí)處理的輸入流數(shù)量。增大 P 可以顯著提升模型的并行計(jì)算能力，從而增強(qiáng)模型性能。例如，當(dāng) P 從 1 增加到 8 時(shí)，模型的推理能力可提升數(shù)倍。在實(shí)際應(yīng)用中，P 的選擇需結(jié)合硬件資源和任務(wù)復(fù)雜度進(jìn)行優(yōu)化。若 P 過大，可能導(dǎo)致內(nèi)存占用增加和計(jì)算資源浪費(fèi)；若 P 過小，則無法充分發(fā)揮 PARSCALE 的并行優(yōu)勢(shì)。

模型參數(shù)數(shù)量 N

模型參數(shù)數(shù)量 N 直接影響模型的表達(dá)能力和計(jì)算復(fù)雜度。在 PARSCALE 中，雖然通過并行計(jì)算提升了性能，但模型參數(shù)數(shù)量仍起著基礎(chǔ)性作用。假設(shè)模型參數(shù)數(shù)量為 1.6B，當(dāng) P 從 1 增加到 8 時(shí)，模型性能大幅提升，但若 N 過小，即使增大 P，性能提升也有限。因此，需在模型參數(shù)規(guī)模和并行流數(shù)量之間找到最佳平衡。一般而言，對(duì)于復(fù)雜任務(wù)如代碼生成，N 需達(dá)到一定規(guī)模（如數(shù)億參數(shù)）才能充分展現(xiàn) PARSCALE 的優(yōu)勢(shì)。

指數(shù) α

指數(shù) α 是衡量模型損失隨參數(shù)和并行計(jì)算變化的敏感度參數(shù)。在損失公式中，α 決定了模型對(duì)參數(shù)擴(kuò)展和并行計(jì)算擴(kuò)展的響應(yīng)程度。經(jīng)過實(shí)驗(yàn)驗(yàn)證，在 Stack-V2-Python 數(shù)據(jù)集上，α 約為 0.189，表明模型損失對(duì)參數(shù)和并行計(jì)算變化較為敏感。當(dāng) α 較大時(shí)，參數(shù)擴(kuò)展對(duì)性能提升效果顯著；當(dāng) α 較小時(shí)，并行擴(kuò)展的作用更為突出。例如，對(duì)于 α = 0.2 的模型，并行流數(shù)量 P 增加一倍，相當(dāng)于參數(shù)擴(kuò)展約 1.5 倍；而對(duì)于 α = 0.1 的模型，同樣的 P 增加效果相當(dāng)于參數(shù)擴(kuò)展約 3 倍。

DIVERSITY 參數(shù)

DIVERSITY 參數(shù)反映了不同并行流輸出之間的差異性程度，是衡量并行流獨(dú)立性和互補(bǔ)性的關(guān)鍵指標(biāo)。其值越大，表示并行流之間的差異性越顯著，模型性能提升潛力越大。DIVERSITY 受并行流相關(guān)系數(shù) ρ 的影響，當(dāng) ρ = 0 時(shí)，并行流獨(dú)立，DIVERSITY 最大，模型損失與 P 呈現(xiàn)冪律關(guān)系（L ∝ P?1）。若并行流相關(guān)性較高（ρ 接近 1），則 DIVERSITY 較小，性能提升受限。在實(shí)驗(yàn)中發(fā)現(xiàn)，當(dāng) P = 8 時(shí)，不同模型的 DIVERSITY 值差異顯著，如代碼生成任務(wù)中 DIVERSITY 較高，而常識(shí)問答任務(wù)中相對(duì)較低，表明不同類型任務(wù)對(duì)并行流差異性的需求不同。

并行擴(kuò)展法則的理論分析

從理論上來說，PARSCALE 的損失函數(shù)遵循一種新的擴(kuò)展法則。研究者借鑒了 Chinchilla 擴(kuò)展法則，并結(jié)合信息論中的相關(guān)概念，深入探討了模型損失與參數(shù)、并行計(jì)算量之間的關(guān)系。假設(shè)每個(gè)并行流的預(yù)測(cè)遵循 Chinchilla 擴(kuò)展法則：

其中，是第個(gè)并行流的交叉熵?fù)p失，是模型參數(shù)數(shù)量，、和是正的常數(shù)，表示自然文本的熵。

在 PARSCALE 中，通過聚合個(gè)并行流的輸出，最終預(yù)測(cè)的損失可以表示為：

其中，DIVERSITY 是一個(gè)衡量并行流之間多樣性的參數(shù)。當(dāng)并行流之間的相關(guān)系數(shù) 時(shí)，即并行流之間獨(dú)立，損失與呈現(xiàn)冪律關(guān)系（即）。這表明通過增加并行計(jì)算量，可以有效地降低模型的損失，提升模型性能。

進(jìn)一步的理論分析表明，在一定條件下，P 次并行計(jì)算的擴(kuò)展效果類似于將模型參數(shù)按的比例進(jìn)行擴(kuò)展。例如，當(dāng) 時(shí)，模型的性能提升相當(dāng)于參數(shù)擴(kuò)展了倍。這種理論依據(jù)為 PARSCALE 的有效性提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)。

基于420億個(gè) token 訓(xùn)練的、按參數(shù)數(shù)量和并行流數(shù)量P縮放的大型語(yǔ)言模型（LLM）的損失情況。每個(gè)點(diǎn)表示一次訓(xùn)練運(yùn)行的損失值。圖中展示了根據(jù)公式擬合的縮放定律曲線，并標(biāo)注了擬合參數(shù)（E、A、k、α）以及擬合優(yōu)度R2

實(shí)驗(yàn)驗(yàn)證

為了驗(yàn)證并行擴(kuò)展法則的有效性，研究者在 Stack-V2（Python 子集）和 Pile 語(yǔ)料庫(kù)上進(jìn)行了大規(guī)模的預(yù)訓(xùn)練實(shí)驗(yàn)。實(shí)驗(yàn)涵蓋了多種模型參數(shù)規(guī)模（從 0.5B 到 4.4B）和不同的并行流數(shù)量（從 1 到 8）。實(shí)驗(yàn)結(jié)果顯示，隨著并行流數(shù)量的增加，模型的損失呈現(xiàn)出明顯的下降趨勢(shì)，驗(yàn)證了并行擴(kuò)展法則的正確性。

在 Stack-V2（Python 子集）數(shù)據(jù)集上，當(dāng)模型參數(shù)為 1.6B 時(shí)，隨著從 1 增加到 8，訓(xùn)練損失從 1.0817 下降到 0.9794，驗(yàn)證損失也從 1.1131 下降到 0.9794。在 Pile 語(yǔ)料庫(kù)上，當(dāng)模型參數(shù)為 4.4B 時(shí)，隨著從 1 增加到 8，訓(xùn)練損失從 1.8451 下降到 1.7772，驗(yàn)證損失從 1.8218 下降到 1.7772。這些數(shù)據(jù)表明，PARSCALE 在不同的數(shù)據(jù)集和模型規(guī)模下都能有效提升模型性能。

預(yù)測(cè)的PARSCALE損失等高線。每條等高線表示具有相似性能的（參數(shù)，P）組合

通過對(duì)比不同值和模型參數(shù)組合下的學(xué)習(xí)曲線和驗(yàn)證曲線，發(fā)現(xiàn)，在訓(xùn)練初期，并行流數(shù)量較多的模型收斂速度更快。例如，在 Pile 語(yǔ)料庫(kù)上，當(dāng) 時(shí)，模型在訓(xùn)練初期的損失下降速度比快出 30%。這進(jìn)一步證明了并行擴(kuò)展法則在實(shí)際訓(xùn)練過程中的有效性。

Stack-V2-Python和The Pile的訓(xùn)練損失，采用0.98的指數(shù)移動(dòng)平均進(jìn)行平滑處理

上圖作為實(shí)驗(yàn)結(jié)果的補(bǔ)充，直觀展示模型在不同數(shù)據(jù)集和參數(shù)組合下的訓(xùn)練損失變化趨勢(shì)，進(jìn)一步證明并行擴(kuò)展法則的正確性。

關(guān)鍵結(jié)論的拓展

在強(qiáng)調(diào) P 次并行計(jì)算擴(kuò)展相當(dāng)于將參數(shù)按的比例進(jìn)行擴(kuò)展等重要結(jié)論的基礎(chǔ)上，進(jìn)一步探討了這些結(jié)論在不同場(chǎng)景下的適用性和局限性。例如，在文本生成任務(wù)中，模型參數(shù)與并行計(jì)算量的最佳配比關(guān)系可能與在機(jī)器翻譯任務(wù)中有所不同。通過大量實(shí)驗(yàn)，發(fā)現(xiàn)，在文本生成任務(wù)中，當(dāng) 值在 4 到 8 之間時(shí)，模型的性能提升最為顯著，而參數(shù)擴(kuò)展的收益相對(duì)較小。而在機(jī)器翻譯任務(wù)中，參數(shù)擴(kuò)展和并行擴(kuò)展的組合使用能夠取得最佳效果。

此外，還發(fā)現(xiàn)，對(duì)于不同類型的任務(wù)（如情感分析、問答系統(tǒng)等），可以通過靈活調(diào)整值來達(dá)到最佳性能。例如，在情感分析任務(wù)中，由于任務(wù)相對(duì)簡(jiǎn)單，較小的值（如 2 或 4）即可取得較好的效果，而過大的值可能會(huì)導(dǎo)致過擬合。在問答系統(tǒng)中，較大的值（如 8）能夠更好地捕捉問題和答案之間的復(fù)雜關(guān)系，提高回答的準(zhǔn)確性和相關(guān)性。

另外，PARSCALE 在數(shù)據(jù)重復(fù)使用的情況下也能展現(xiàn)出優(yōu)勢(shì)。如下圖所示，在 OpenWebText 數(shù)據(jù)集上重復(fù)訓(xùn)練多個(gè)周期時(shí)，可以發(fā)現(xiàn) PARSCALE 模型相比參數(shù)擴(kuò)展模型在抵抗過擬合方面表現(xiàn)出更強(qiáng)的穩(wěn)定性。當(dāng) P = 2 時(shí)，PARSCALE 模型的驗(yàn)證損失在第五個(gè) epoch 突然增加時(shí)仍能保持相對(duì)較低的水平，相比參數(shù)擴(kuò)展模型（N = 5B，P = 1）展現(xiàn)出更強(qiáng)的泛化能力。

在數(shù)據(jù)重復(fù)使用的情況下，PARSCALE 模型相比參數(shù)擴(kuò)展模型在抵抗過擬合方面的優(yōu)勢(shì)。

在OpenWebText上進(jìn)行多次重復(fù)訓(xùn)練周期的訓(xùn)練損失。在第五個(gè)訓(xùn)練周期時(shí)，驗(yàn)證損失突然增加，而計(jì)算量更大的模型（N = 3B，P = 2）相比參數(shù)量更多的模型（N = 5B，P = 1）表現(xiàn)出更強(qiáng)的抗過擬合能力

推理成本分析

內(nèi)存成本對(duì)比

研究者對(duì) PARSCALE 和參數(shù)擴(kuò)展方法的內(nèi)存使用情況進(jìn)行了比較。由于 PARSCALE 幾乎不增加額外參數(shù)，且 KV 緩存大小的增長(zhǎng)遠(yuǎn)小于模型參數(shù)所占用的 GPU 內(nèi)存，其內(nèi)存效率顯著優(yōu)于參數(shù)擴(kuò)展方法。例如，當(dāng)并行流數(shù)量時(shí)，KV 緩存大小的增加遠(yuǎn)低于參數(shù)擴(kuò)展方法中模型參數(shù)的增長(zhǎng)，這使得 PARSCALE 在資源受限的環(huán)境中具有顯著優(yōu)勢(shì)。

時(shí)間成本對(duì)比

在時(shí)間成本方面，PARSCALE 通過將內(nèi)存瓶頸轉(zhuǎn)化為計(jì)算瓶頸，并利用對(duì) GPU 友好的并行計(jì)算，有效降低了推理延遲。論文中的實(shí)驗(yàn)數(shù)據(jù)顯示，與參數(shù)擴(kuò)展方法相比，PARSCALE 在小批量推理時(shí)的延遲增加顯著減少。對(duì)于 1.6B 模型，當(dāng)擴(kuò)展至相同的性能提升時(shí)，PARSCALE 的內(nèi)存增加僅為參數(shù)擴(kuò)展的 1/22，延遲增加僅為 1/6。這表明 PARSCALE 在推理效率上具有顯著優(yōu)勢(shì)，尤其適合低資源邊緣設(shè)備。

下圖直觀展示了模型容量（以損失表示）與推理空間-時(shí)間成本之間的關(guān)系。圖中比較了不同參數(shù)規(guī)模（1.6B、2.8B、4.4B）和批量大小（1、2、4、8）下的情況，藍(lán)色箭頭表示參數(shù)擴(kuò)展，灰色箭頭表示并行擴(kuò)展。這些圖表清晰地表明，PARSCALE 在推理成本上具有顯著優(yōu)勢(shì)。

模型容量（由損失值表示）與推理時(shí)空成本成比例，涉及三個(gè)參數(shù)（16億、28億和44億）以及批量大小∈{1, 2, 4, 8}。結(jié)果是基于輸入/輸出標(biāo)記∈{64, 128, 256, 512}的平均值。藍(lán)色箭頭表示參數(shù)擴(kuò)展；灰色箭頭代表并行擴(kuò)展

訓(xùn)練數(shù)據(jù)擴(kuò)展與應(yīng)用場(chǎng)景

兩階段預(yù)訓(xùn)練策略的關(guān)聯(lián)性強(qiáng)化

PARSCALE 的兩階段預(yù)訓(xùn)練策略在實(shí)際應(yīng)用中展現(xiàn)出了強(qiáng)大的優(yōu)勢(shì)。在第一階段，模型通過傳統(tǒng)預(yù)訓(xùn)練方法學(xué)習(xí)基礎(chǔ)的語(yǔ)言模式和語(yǔ)義信息。這一階段的訓(xùn)練為模型奠定了堅(jiān)實(shí)的基礎(chǔ)，使其具備了基本的語(yǔ)言理解和生成能力。在第二階段，PARSCALE 引入并行擴(kuò)展訓(xùn)練，利用少量的 token 高效地提升模型性能。這種策略既降低了訓(xùn)練成本，還能夠針對(duì)特定任務(wù)進(jìn)行優(yōu)化。

下圖展示了兩階段訓(xùn)練的損失變化情況，清晰地反映了第二階段對(duì)模型性能的提升。

兩階段訓(xùn)練的損失，使用權(quán)重為0.95的指數(shù)移動(dòng)平均進(jìn)行平滑

在第一階段訓(xùn)練中，模型使用了大量的通用文本數(shù)據(jù)，學(xué)習(xí)了語(yǔ)言的語(yǔ)法、詞匯和基本語(yǔ)義。在第二階段，模型在數(shù)據(jù)上進(jìn)行并行擴(kuò)展訓(xùn)練，通過增加并行流數(shù)量，模型能夠從多個(gè)角度分析內(nèi)容，識(shí)別出各種類型的錯(cuò)誤和問題。實(shí)驗(yàn)數(shù)據(jù)顯示，當(dāng) 從 1 增加到 8 時(shí)，任務(wù)準(zhǔn)確率提升了 14 個(gè)百分點(diǎn)，而訓(xùn)練時(shí)間僅增加了 10%。這充分展示了兩階段預(yù)訓(xùn)練策略與 PARSCALE 并行擴(kuò)展范式的緊密關(guān)聯(lián)和高效性。

在現(xiàn)成預(yù)訓(xùn)練模型上的應(yīng)用關(guān)聯(lián)性深化

將 PARSCALE 應(yīng)用于現(xiàn)成的預(yù)訓(xùn)練模型 Qwen-2.5 的實(shí)驗(yàn)結(jié)果進(jìn)一步證明了其有效性。在持續(xù)預(yù)訓(xùn)練和參數(shù)高效微調(diào)過程中，模型性能的提升與 PARSCALE 的并行擴(kuò)展原理密切相關(guān)。例如，在代碼生成任務(wù)中，經(jīng)過 PARSCALE 微調(diào)后的模型生成的代碼效率和正確性顯著提升。模型生成的代碼在運(yùn)行速度上比微調(diào)前快了 30%，代碼的正確率提高了 25%。

下圖展示了 Qwen-2.5 模型在不同數(shù)據(jù)集上的持續(xù)預(yù)訓(xùn)練損失變化，以及在 Stack-V2 (Python) 數(shù)據(jù)集上的微調(diào)性能表現(xiàn)。從圖中可以看出，PARSCALE 微調(diào)后的模型在代碼生成任務(wù)中表現(xiàn)出了顯著的性能提升。這表明 PARSCALE 能夠通過并行計(jì)算捕捉代碼生成中的多種模式和邏輯關(guān)系，從而提高生成代碼的質(zhì)量。

Qwen-2.5 模型持續(xù)預(yù)訓(xùn)練與微調(diào)性能

在數(shù)學(xué)問題求解任務(wù)中，PARSCALE 通過動(dòng)態(tài)并行擴(kuò)展適應(yīng)不同應(yīng)用場(chǎng)景的優(yōu)勢(shì)也得到了充分體現(xiàn)。微調(diào)后的模型在解答數(shù)學(xué)問題時(shí)，能夠生成更簡(jiǎn)潔、更準(zhǔn)確的解答步驟。例如，在 GSM8K 數(shù)據(jù)集上，模型的準(zhǔn)確率從原來的 35% 提升至 50%。這表明 PARSCALE 能夠通過并行計(jì)算捕捉數(shù)學(xué)問題的多種解法和邏輯關(guān)系，從而提高解答的準(zhǔn)確性和多樣性。

探討其他相關(guān)研究

推理時(shí)間擴(kuò)展

推理時(shí)間擴(kuò)展（inference-time scaling）方法，如 GPT-o1 等模型通過擴(kuò)展串行計(jì)算增加思維鏈長(zhǎng)度，雖然在處理復(fù)雜推理任務(wù)時(shí)取得了一定的成果，但在效率和準(zhǔn)確性方面仍存在不足。例如，GPT-o1 在解答復(fù)雜數(shù)學(xué)問題時(shí)，雖然通過增加推理 token 數(shù)量能夠生成更詳細(xì)的解答步驟，但其準(zhǔn)確率僅提高了 10%，而推理時(shí)間卻增加了 5 倍。相比之下，PARSCALE 通過并行計(jì)算擴(kuò)展，在保證推理質(zhì)量的同時(shí)顯著降低了時(shí)間和成本。

此外，無需額外訓(xùn)練的推理時(shí)間擴(kuò)展方法，如Beam-Search、自一致性、多數(shù)投票等，雖然在某些任務(wù)上能夠取得較好的效果，但其性能受限于模型本身的推理能力。PARSCALE 在訓(xùn)練階段就引入并行計(jì)算擴(kuò)展，能夠更好地提升模型的推理能力。例如，在對(duì)比束搜索和 PARSCALE 在文本生成任務(wù)中的表現(xiàn)時(shí)發(fā)現(xiàn)，PARSCALE 生成的文本在連貫性和相關(guān)性方面比束搜索高出 20%，同時(shí)推理時(shí)間減少了 40%。這表明 PARSCALE 與這些方法具有互補(bǔ)性，可以通過結(jié)合使用進(jìn)一步提升模型性能。

下表展示了 PARSCALE 與束搜索的性能對(duì)比，幫助我們更直觀地理解兩者在數(shù)學(xué)推理任務(wù)上的表現(xiàn)差異。

PARSCALE 與 Beam-Search 的性能對(duì)比

Classifier-Free Guidance（CFG）的關(guān)聯(lián)拓展

CFG 的核心思想是通過擾動(dòng)輸入來引導(dǎo)模型生成更符合預(yù)期的輸出。在文本生成任務(wù)中，CFG 通過去除條件信息來獲得第二個(gè)輸出流，然后與正常輸出流進(jìn)行對(duì)比和聚合，從而提升生成文本的質(zhì)量。PARSCALE 在此基礎(chǔ)上進(jìn)一步發(fā)展，通過增加多個(gè)并行流，并采用動(dòng)態(tài)加權(quán)聚合方法，能夠更靈活地控制生成文本的風(fēng)格和內(nèi)容。

例如，在情感分析任務(wù)中，CFG 通過擾動(dòng)輸入文本的情感傾向來生成對(duì)比輸出流，從而增強(qiáng)模型對(duì)情感特征的識(shí)別能力。而 PARSCALE 則通過多個(gè)并行流從不同角度分析文本的情感特征，然后動(dòng)態(tài)聚合這些流的輸出，使得模型能夠更準(zhǔn)確地識(shí)別復(fù)雜情感。實(shí)驗(yàn)數(shù)據(jù)顯示，PARSCALE 在情感分析任務(wù)中的準(zhǔn)確率比 CFG 高出 15%，同時(shí)推理速度提升了 30%。這表明 PARSCALE 在提升模型性能方面具有更顯著的優(yōu)勢(shì)。

模型集成的對(duì)比深化

與傳統(tǒng)模型集成方法相比，PARSCALE 在多個(gè)方面具有顯著優(yōu)勢(shì)。傳統(tǒng)集成方法通常需要訓(xùn)練多個(gè)獨(dú)立的模型，可這增加了訓(xùn)練時(shí)間和計(jì)算資源的消耗，還在推理階段需要同時(shí)運(yùn)行多個(gè)模型，導(dǎo)致推理效率低下。而 PARSCALE 通過共享參數(shù)和動(dòng)態(tài)加權(quán)聚合，在不顯著增加資源消耗的情況下實(shí)現(xiàn)了類似甚至更優(yōu)的集成效果。

例如，在一個(gè)圖像分類任務(wù)中，傳統(tǒng)集成方法需要訓(xùn)練 5 個(gè)獨(dú)立的模型，每個(gè)模型的參數(shù)量為 100M，總參數(shù)量達(dá)到 500M，訓(xùn)練時(shí)間為 10 天。而 PARSCALE 僅需一個(gè)模型，通過設(shè)置并行流數(shù)量，即可實(shí)現(xiàn)相當(dāng)?shù)男阅埽铱倕?shù)量?jī)H為 105M，訓(xùn)練時(shí)間縮短至 3 天。在推理階段，PARSCALE 的推理速度比傳統(tǒng)集成方法快出 4 倍，同時(shí)準(zhǔn)確率提高了 5%。這充分展示了 PARSCALE 在模型集成方面的高效性和優(yōu)越性。

語(yǔ)言模型擴(kuò)展法則的拓展融合

PARSCALE 對(duì)現(xiàn)有的 Chinchilla 擴(kuò)展法則進(jìn)行了拓展和補(bǔ)充，提出了一個(gè)新的并行擴(kuò)展法則。通過將并行計(jì)算量納入考慮，PARSCALE 在理論上和實(shí)踐中都證明了其有效性。與模型集成擴(kuò)展法則相比，PARSCALE 更加靈活，能夠根據(jù)實(shí)際需求動(dòng)態(tài)調(diào)整并行流數(shù)量，從而在不同的應(yīng)用場(chǎng)景下實(shí)現(xiàn)最佳性能。

例如，在一個(gè)大規(guī)模文本生成任務(wù)中，通過結(jié)合 Chinchilla 擴(kuò)展法則和 PARSCALE 的并行擴(kuò)展法則，模型的性能得到了顯著提升。當(dāng)模型參數(shù)從 1B 擴(kuò)展到 8B，同時(shí)并行流數(shù)量從 1 增加到 8 時(shí)，文本生成的質(zhì)量評(píng)分從 65 分提升至 85 分。這表明 PARSCALE 在現(xiàn)有擴(kuò)展法則的基礎(chǔ)上，能夠更有效地利用計(jì)算資源，提升模型性能。通過建立統(tǒng)一的理論框架，將不同擴(kuò)展法則納入其中，PARSCALE 為未來語(yǔ)言模型的擴(kuò)展研究提供了更全面、更系統(tǒng)的理論指導(dǎo)。

討論與未來工作

訓(xùn)練推理最優(yōu)語(yǔ)言模型的路徑探索

在實(shí)際應(yīng)用中，確定在不同推理預(yù)算下（如內(nèi)存、延遲和批量大小）參數(shù)與并行計(jì)算的分配是一個(gè)關(guān)鍵問題。以實(shí)時(shí)翻譯系統(tǒng)為例，我們需要在保證翻譯準(zhǔn)確率的同時(shí)，盡可能降低翻譯延遲。通過建立數(shù)學(xué)模型并進(jìn)行模擬實(shí)驗(yàn)，發(fā)現(xiàn)當(dāng)內(nèi)存預(yù)算為 4GB，延遲預(yù)算為 2 秒，批量大小為 32 時(shí)，將參數(shù)擴(kuò)展比例設(shè)置為 60%，并行擴(kuò)展比例設(shè)置為 40%（即），能夠使模型的翻譯準(zhǔn)確率達(dá)到最高。

比如，在實(shí)時(shí)翻譯系統(tǒng)中，對(duì)不同分配方案進(jìn)行了測(cè)試。當(dāng)參數(shù)擴(kuò)展比例為 80%（即模型參數(shù)擴(kuò)展 2 倍），并行擴(kuò)展比例為 20%（即）時(shí)，翻譯準(zhǔn)確率為 82%，延遲為 1.5 秒；當(dāng)參數(shù)擴(kuò)展比例為 60%，并行擴(kuò)展比例為 40%（即）時(shí)，翻譯準(zhǔn)確率提升至 88%，延遲仍保持在 1.5 秒；而當(dāng)參數(shù)擴(kuò)展比例降至 40%，并行擴(kuò)展比例升至 60%（即）時(shí)，翻譯準(zhǔn)確率反而下降至 85%，延遲增加至 2.2 秒。這表明存在一個(gè)最優(yōu)的分配方案，能夠使模型性能達(dá)到最佳。通過進(jìn)一步收集和分析不同類型 LLM 在不同應(yīng)用場(chǎng)景下的實(shí)際數(shù)據(jù)，可以更準(zhǔn)確地預(yù)測(cè)不同分配方案對(duì)模型性能的影響，為實(shí)際應(yīng)用中的模型部署和優(yōu)化提供具體指導(dǎo)。

并行擴(kuò)展法則的進(jìn)一步理論突破

目前，直接建模 DIVERSITY 的困難限制了并行擴(kuò)展法則的理論深度。為了解決這一問題，研究者計(jì)劃結(jié)合信息論和統(tǒng)計(jì)學(xué)中的前沿研究成果，提出新的理論方法和數(shù)學(xué)工具。例如，利用深度學(xué)習(xí)中的表示學(xué)習(xí)理論，分析不同并行流在模型內(nèi)部的特征表示差異及其對(duì) DIVERSITY 的影響。通過開展大量實(shí)驗(yàn)，收集不同模型架構(gòu)、不同數(shù)據(jù)集下的實(shí)驗(yàn)數(shù)據(jù)，建立 DIVERSITY 與的經(jīng)驗(yàn)?zāi)Ｐ汀?/span>

在初步實(shí)驗(yàn)中，發(fā)現(xiàn)當(dāng)并行流數(shù)量增加時(shí)，DIVERSITY 呈現(xiàn)先上升后下降的趨勢(shì)。這表明存在一個(gè)最優(yōu)的值，能夠使 DIVERSITY 最大化。例如，在某文本分類任務(wù)中，當(dāng) 時(shí)，DIVERSITY 達(dá)到最大值，模型性能也最佳。研究者計(jì)劃通過進(jìn)一步的實(shí)驗(yàn)和理論分析，探索是否存在超過的增長(zhǎng)率以及遠(yuǎn)大于 8 時(shí)的性能上限等問題，從而為并行擴(kuò)展法則的理論完善提供實(shí)證依據(jù)。

兩階段策略的最優(yōu)分界點(diǎn)的實(shí)踐指導(dǎo)

為了確定不同模型的最佳兩階段策略分界點(diǎn)，研究者建立了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化模型。通過收集和分析不同類型 LLM 在采用兩階段預(yù)訓(xùn)練策略時(shí)的實(shí)際數(shù)據(jù)，發(fā)現(xiàn)模型規(guī)模和訓(xùn)練數(shù)據(jù)特點(diǎn)對(duì)最佳分界點(diǎn)有顯著影響。例如，對(duì)于較小規(guī)模的模型（如參數(shù)量在 1B 到 5B 之間），第一階段使用 80% 的訓(xùn)練數(shù)據(jù)，第二階段使用 20% 的數(shù)據(jù)進(jìn)行并行擴(kuò)展訓(xùn)練，能夠取得最佳性能。而對(duì)于較大規(guī)模的模型（如參數(shù)量超過 10B），第一階段使用 90% 的數(shù)據(jù)，第二階段使用 10% 的數(shù)據(jù)進(jìn)行并行擴(kuò)展訓(xùn)練更為合適。

總結(jié)

PARSCALE 作為一種語(yǔ)言模型并行擴(kuò)展范式，帶來了多方面的創(chuàng)新與價(jià)值。首先，它提出了通過增加并行計(jì)算來提升模型能力的理念，打破了傳統(tǒng)參數(shù)擴(kuò)展和推理時(shí)間擴(kuò)展的局限。其次，PARSCALE 通過理論推導(dǎo)和大規(guī)模實(shí)驗(yàn)驗(yàn)證了并行擴(kuò)展法則的有效性，證明了 P 次并行計(jì)算擴(kuò)展相當(dāng)于將模型參數(shù)按的比例進(jìn)行擴(kuò)展。此外，PARSCALE 在推理效率和模型能力提升方面表現(xiàn)出色，尤其適用于低資源邊緣設(shè)備。

實(shí)驗(yàn)部分的數(shù)據(jù)更是令人信服。看到那些具體的數(shù)值對(duì)比，比如內(nèi)存使用減少 22 倍，延遲增加僅為 6 倍，與傳統(tǒng)參數(shù)擴(kuò)展方法相比的巨大優(yōu)勢(shì)，讓我深刻意識(shí)到 PARSCALE 的實(shí)際應(yīng)用價(jià)值。這不僅僅是一個(gè)理論上的模型，它已經(jīng)在多個(gè)數(shù)據(jù)集和任務(wù)中證明了自己的實(shí)力，從代碼生成到常識(shí)問答，PARSCALE 都展現(xiàn)出了卓越的性能。

讀完關(guān)于 PARSCALE 的論文讓我想起另外一個(gè) Repeat 重復(fù)采樣的論文，畢竟這已是在實(shí)際實(shí)踐中應(yīng)用的，重復(fù)采樣本身就是通過并行的 continuous batching 來實(shí)現(xiàn)的。我通過對(duì) Qwen 團(tuán)隊(duì)研究的這個(gè) PARSCALE 的了解，對(duì)并行擴(kuò)展有了更進(jìn)一步的認(rèn)知。通過并行計(jì)算流的引入和動(dòng)態(tài)輸出聚合，PARSCALE 在不大幅增加模型參數(shù)的情況下，實(shí)現(xiàn)了顯著的性能提升。PARSCALE 為大型語(yǔ)言模型的Scaling提供了新的思路，同時(shí)也為人工智能技術(shù)在業(yè)務(wù)上的落地注入了新的活力。

責(zé)任編輯：龐桂玉來源：覺察流