并行擴展（Parallel Scaling）：一種新型語言模型擴展范式

作者：肆零柒 2025-05-22 04:00:00

我們來聊一項可以改變語言模型性能的技術——PARSCALE（Parallel Scaling）。如果有一種方法，能夠在不顯著增加模型參數的情況下，大幅提升模型的推理能力，同時還能顯著降低推理成本，那將是多么令人興奮的突破！PARSCALE 正是這樣一種技術，它通過并行計算，為大型語言模型（LLM）的擴展提供了一種全新的思路。

“ PARSCALE 作為一種新型的語言模型擴展范式，通過增加并行計算次數 P，在保持參數規模幾乎不變的情況下，能夠顯著提升模型的推理能力。”

大家好，我是肆〇柒。今天，我們來聊一項可以改變語言模型性能的技術——PARSCALE（Parallel Scaling）。如果有一種方法，能夠在不顯著增加模型參數的情況下，大幅提升模型的推理能力，同時還能顯著降低推理成本，那將是多么令人興奮的突破！PARSCALE 正是這樣一種技術，它通過并行計算，為大型語言模型（LLM）的擴展提供了一種全新的思路。接下來，讓我們一起深入了解 PARSCALE，看看它是如何在保持參數規模幾乎不變的情況下，實現性能的飛躍的。

在當下，LLM 的應用場景不斷拓展，為我們的生活和工作帶來了前所未有的便利。然而，隨著模型規模的不斷擴大，LLM 在實際應用中也面臨著一系列嚴峻的挑戰。

以參數擴展為例，像 DeepSeek-V3 這樣的模型，其參數規模已高達 672B，對內存提出了極為苛刻的要求。這種高內存需求使得模型在邊緣設備上的部署變得極為困難。想象一下，一臺智能手機或智能汽車，其內存資源相對有限，如何能夠流暢運行如此龐大的模型？此外，推理時間擴展同樣帶來了高時間成本。例如，當模型需要生成大量推理 token 時，即使是處理一個簡單的數學問題，也可能耗費數秒甚至數十秒的時間。這種延遲對于實時性要求較高的應用場景來說，無疑是致命的。

這些問題嚴重限制了 LLM 在實際場景中的廣泛應用，尤其是在智能手機、智能汽車和機器人等低資源邊緣設備上。例如，蘋果的 iPhone 14 系列手機，其內存僅為 4GB 至 6GB，而運行一個 672B 參數的模型需要的內存遠超此限制。同樣，特斯拉的 Autopilot 系統在處理實時駕駛決策時，無法承受高延遲的推理過程。模型的高性能與設備的低資源之間存在著巨大的矛盾，我們需要一種創新的解決方案。

PARSCALE 的價值與創新

在這樣的背景下，PARSCALE（Parallel Scaling）應運而生。作為一種全新的語言模型擴展范式，PARSCALE 以其獨特的方式，為 LLM 的發展帶來了新的希望。

PARSCALE 的核心思想是在保持參數規模幾乎不變的情況下，通過增加并行計算來提升模型的推理能力。具體而言，它對輸入進行 P 種不同的可學習變換，然后并行地執行模型的前向傳播，最后動態聚合這 P 個輸出。這種方法不僅能夠顯著增強模型的推理能力，還能有效降低推理成本。

與傳統的參數擴展和推理時間擴展相比，PARSCALE 在推理效率、訓練成本和適用場景等方面展現出獨特的優勢。例如，對于一個 1.6B 參數的模型，當擴展到 P = 8 時，PARSCALE 僅需增加 22 倍的內存，而參數擴展則需要增加 6 倍的內存，并且在推理延遲方面，PARSCALE 也表現出色。這種高效性使得 LLM 在資源受限環境中的部署成為可能，為模型的實際應用開辟了新的道路。

PARSCALE 的優勢不僅體現在推理效率和成本上，還在于其對模型泛化能力的潛在提升。通過增加并行流數量 P，模型能夠在訓練和推理過程中接觸到更多樣的輸入變換和輸出聚合方式，這有助于模型學習到更廣泛、更魯棒的特征表示，從而在面對不同領域和風格的數據時表現得更加出色。

(1) 本文提出的并行擴展方法（PAR SCALE）的示意圖。(2) 在Stack-V2（Python子集）的420億個tokens上進行預訓練模型的并行擴展法則。(3) 損失擴展曲線與推理成本的關系。結果是基于批量大小為{1, 2, 4, 8}和輸入+輸出tokens數為{128, 256, 512, 1024}的平均值。

如上圖所示，PARSCALE 通過增加并行流數量 P，在保持參數規模幾乎不變的情況下，顯著提升了模型的推理能力。上圖（1）展示了 PARSCALE 的工作原理，包括輸入變換、并行前向傳播和動態輸出聚合的過程。上圖（2）展示了在 Stack-V2 數據集上，不同參數規模和并行流數量 P 下的預訓練模型的 scaling law。上圖（3）則展示了推理成本與損失的曲線關系，表明 PARSCALE 在推理效率方面的優勢。

PARSCALE 核心概念

靈感來源與技術設想

PARSCALE 的靈感源于分類器自由引導（Classifier-free Guidance，CFG），這是一種在擴散模型中廣泛應用的技術。在擴散模型中，CFG 通過兩次前向傳播來提升模型性能。它首先對輸入 x 進行正常前向傳播，得到第一個輸出；然后對輸入進行擾動（例如去除條件信息），得到第二個輸出；最后根據預設的對比規則，將這兩個輸出進行聚合。這種兩次計算的方式，使得模型能夠在推理階段獲得比單次前向傳播更優的性能。

其中， w是一個預設的超參數，用于控制條件信息的影響程度。這種對比規則的設計使得模型能夠在條件化和無條件化的輸出之間找到平衡，從而提升生成結果的質量。

PARSCALE 借鑒了 CFG 的核心思想，并進行了創新性的擴展。它不再局限于兩次前向傳播，而是通過 P 種不同的可學習變換對輸入進行處理，生成 P 個不同的輸入版本。這些變換后的輸入被并行地送入模型進行前向傳播，得到 P 個輸出。隨后，通過一個動態加權平均的方法，將這 P 個輸出聚合為一個最終輸出。這個動態加權平均的過程，利用一個多層感知機（MLP）將多個輸出轉換為聚合權重，從而實現對不同輸出的動態融合。

這種動態加權平均機制使得模型能夠根據不同輸入和任務的需求，自適應地調整各個并行流的權重，從而實現更優的推理性能。

與傳統擴展策略對比

為了更清晰地展示 PARSCALE 的優勢，我們可以將其與傳統的參數擴展和推理時間擴展策略進行對比。

傳統參數擴展策略，如密集參數擴展（Dense Scaling）和專家混合擴展（MoE Scaling），雖然能夠通過增加模型參數來提升性能，但卻伴隨著高內存需求。例如，Dense Scaling 隨著參數的增加，內存占用呈線性增長，這對于邊緣設備來說是難以承受的。而 MoE Scaling 雖然在一定程度上降低了內存需求，但仍面臨著高內存占用的問題，且訓練成本相對較高。

推理時間擴展策略則通過增加推理時間來提升模型的推理能力。例如，OpenAI 探索的推理時間擴展方法，通過擴增推理 token 數量來增強模型的推理能力，但這種方法通常需要大量的特定訓練數據，并且會顯著增加推理延遲。對于實時性要求較高的應用場景，這種高延遲是難以接受的。

相比之下，PARSCALE 在推理時間、推理空間和訓練成本等方面展現出獨特的優勢。PARSCALE 的推理時間隨著 P 的增加而適度增長，但在小批量場景下，其延遲增加幅度遠低于參數擴展策略。在推理空間方面，PARSCALE 的內存占用僅略有增加，遠低于參數擴展策略。此外，PARSCALE 的訓練成本相對較低，且不需要依賴特定的訓練數據或策略，具有更廣泛的適用性。

這些優勢的背后，源于 PARSCALE 對計算資源的高效利用和對模型結構的創新設計。通過并行計算，PARSCALE 能夠在相同的計算資源下完成更多的推理任務，從而提升了推理效率。同時，由于參數規模沒有顯著增加，模型的內存占用和訓練成本得以有效控制，使其在資源受限的環境中更具優勢。

主流大語言模型擴展策略的比較

上表對比了主流的 LLM 擴展策略，包括傳統的參數擴展（Dense Scaling 和 MoE Scaling）、推理時間擴展和 PARSCALE。從表中可以看出，PARSCALE 在推理時間和推理空間上的表現優于參數擴展，且訓練成本較低，適用場景更廣泛。

理論基礎與 scaling law

理論推導

PARSCALE 的理論基礎源于對 Chinchilla scaling law 的擴展和深化。Chinchilla scaling law 描述了語言模型的損失 L 與其參數數量 N 之間的關系，表明在模型收斂后，損失 L 可以表示為：

在推導 PARSCALE 的損失函數表達式時，基于以下數學原理和步驟：

通過這些步驟，可以得出 PARSCALE 的損失函數表達式，為后續的實驗驗證提供了理論基礎。

參數解釋與影響分析

為了直觀地展示這些參數對模型性能的影響，研究者繪制了參數變化與模型性能關系圖。例如，在 Stack-V2 數據集上，隨著 P 的增加，模型的損失逐漸降低，且在較小的 P 值范圍內，損失降低幅度較大。這表明在實際應用中，適當增加值能夠顯著提升模型性能，但當 P 值增大到一定程度后，性能提升的幅度會逐漸減小。因此，在設計模型時，需要根據具體的應用場景和資源限制，合理選擇 P 值以達到性能和成本的平衡。

實驗驗證與結果分析

實驗設計與設置

為了驗證 PARSCALE 的有效性，研究員在 Stack-V2（Python 子集）和 Pile 語料庫上進行了大規模預訓練實驗。實驗中，模型參數范圍從 5 億到 44 億不等，同時并行流數量 P 從 1 變化到 8。訓練數據規模固定為 420 億 tokens，以確保實驗結果的可比性。

選擇 Stack-V2（Python 子集）和 Pile 語料庫作為實驗數據集的原因在于它們的多樣性和代表性。Stack-V2（Python 子集）主要包含代碼相關的內容，能夠有效評估模型在代碼理解和生成任務上的性能。而 Pile 語料庫則涵蓋了多種領域的文本數據，適用于評估模型在通用語言任務上的表現。通過在這兩個數據集上的實驗，我們可以全面評估 PARSCALE 在不同任務類型上的性能。

在訓練過程中，采用了批量大小為 1024 和序列長度為 2048 的設置，訓練步數總計 20K 步。對于 P>1 的模型，在輸入變換和輸出聚合部分引入了額外的參數，而 P=1 的模型則保持與現有架構一致，以確保實驗的公平性。所有實驗均使用 Qwen-2.5 的密集架構和分詞器，以統一實驗條件。

這些精心設計的實驗設置，目的是全面評估 PARSCALE 在不同參數規模和并行流數量下的性能表現，為后續的分析提供可靠的數據支持。

實驗結果呈現

實驗結果通過圖表和表格的形式直觀地展示出來，揭示了不同參數組合下的訓練損失、驗證損失以及下游任務性能指標。

在 Stack-V2-Python 數據集上，隨著 P 的增加，模型的損失逐漸降低。例如，對于 1.6B 參數的模型，當 P 從 1 增加到 8 時，損失從 1.0817 降低到 1.0383，性能提升顯著。同樣，在 Pile 數據集上，P 的增加也帶來了類似的損失降低趨勢。這表明 PARSCALE 能夠有效地利用并行計算來提升模型性能。

在420億個 tokens上訓練的、按參數規模和并行流數量P進行擴展的大型語言模型的損失

上圖展示了在 Stack-V2（Python 子集）和 Pile 語料庫上，不同參數規模和并行流數量 P 的模型的訓練損失。通過擬合的 scaling law 曲線，可以觀察到 PARSCALE 的損失與參數擴展之間的關系，驗證了理論推導的正確性。

在下游任務性能方面，PARSCALE 同樣表現出色。以代碼生成任務為例，在 HumanEval 和 MBPP 數據集上，隨著 P 的增加，模型的 Pass@1 和 Pass@10 指標均呈現出明顯的提升趨勢。例如，在 HumanEval 數據集上，1.6B 參數的模型在 P=8 時的 Pass@1 達到 18.3%，相比 P=1 時的 18.3% 保持穩定，而在 MBPP 數據集上，P=8 時的 Pass@1 達到 45.5%，相比 P=1 時的 36.0% 提升了近 10 個百分點。這表明 PARSCALE 在代碼生成任務上具有顯著的優勢。

在使用 Stack-V2-Python 數據集進行預訓練后，兩個代碼生成任務 HumanEval(+) 和 MBPP(+) 的平均性能（%）

上表展示了在 Stack-V2-Python 數據集上預訓練后的代碼生成任務性能。隨著 P 的增加，模型在 HumanEval 和 MBPP 數據集上的性能顯著提升，驗證了 PARSCALE 在代碼生成任務上的優勢。

對于通用任務，如 MMLU 數據集，PARSCALE 也展現出了良好的性能提升。例如，4.4B 參數的模型在 P = 8 時的平均性能達到 59.6%，相比$ P = 1 ￥時的 57.2% 提升了 2.4 個百分點。這些結果表明，PARSCALE 不僅在代碼生成任務上表現出色，還能在通用任務上帶來顯著的性能提升。

在Pile數據集上預訓練后，六個通用lm-evaluation-harness任務的平均表現（%）

上表展示了在 Pile 數據集上預訓練后的通用任務性能。隨著的增加，模型在 MMLU 等任務上的性能顯著提升，進一步驗證了 PARSCALE 的有效性。

通過這些實驗結果，我們可以清晰地看到 PARSCALE 在不同實驗條件下的性能優勢和特點。無論是訓練損失、驗證損失還是下游任務性能指標，PARSCALE 都展現出了隨著 P 增加而性能提升的趨勢，驗證了其理論基礎的正確性和有效性。

推理成本分析

在推理成本方面，PARSCALE 與參數擴展策略相比，展現出顯著的優勢。從內存占用的角度來看，PARSCALE 在不同批量大小下的內存占用遠低于參數擴展策略。例如，對于 1.6B 參數的模型，當擴展到時，PARSCALE 的內存增加僅為參數擴展策略的 1/22。這意味著在相同的內存條件下，PARSCALE 能夠支持更多的模型部署，或者在更低的硬件成本下實現相近的性能。

在延遲方面，PARSCALE 在小批量場景下表現出色。由于其并行計算的特性，PARSCALE 能夠充分利用 GPU 的計算資源，將內存瓶頸轉化為計算瓶頸。因此，在小批量場景下，PARSCALE 的延遲增加幅度遠低于參數擴展策略。例如，在批量大小為 1 時，PARSCALE 的延遲增加僅為參數擴展策略的 1/6。這種低延遲特性使得 PARSCALE 在對實時性要求較高的應用場景中具有巨大的優勢，如智能手機和智能汽車等邊緣設備上的實時交互應用。

模型容量（通過損失值表示）與推理時空成本成比例關系，涉及三個參數（16億、28億和44億）以及批量大小 ∈ {1, 2, 4, 8}

上圖展示了模型容量（以損失表示）在推理空間時間成本上的變化，涵蓋了三種參數規模（1.6B、2.8B 和 4.4B）和四種批量大小（1、2、4、8）。藍色箭頭表示參數擴展，灰色箭頭表示并行擴展。結果表明，PARSCALE 在推理效率方面具有顯著優勢，尤其是在小批量場景下。

通過與實際應用場景相結合，我們可以進一步強調 PARSCALE 在低資源邊緣部署場景中的巨大潛力和實際應用價值。它不僅能夠有效降低模型的推理成本，還能在資源受限的環境中實現高性能的推理服務，為 LLM 的廣泛應用提供了新的可能性。

生產級訓練驗證

兩階段訓練策略

為了降低訓練成本并驗證 PARSCALE 在大規模數據訓練中的有效性，研究者提出了一種兩階段訓練策略。

在第一階段，采用傳統的預訓練方法，使用 1T tokens 的數據進行訓練。這一階段的目標是利用大量的數據為模型提供基礎的語言理解和生成能力。訓練過程中，使用 Warmup Stable Decay（WSD）學習率調度策略，初始學習率為 3e-4，經過 2K 步的熱身階段后，保持學習率穩定，以確保模型能夠充分學習數據中的知識。

在第二階段，引入 PARSCALE 技術，僅使用 20B tokens 的數據進行訓練。這一階段的重點是通過并行計算來進一步提升模型的性能。降低了學習率，從 3e-4 線性衰減到 1e-5，以避免對模型參數造成過大的擾動。同時，在這一階段引入了種不同的可學習變換，并動態聚合輸出，以增強模型的推理能力。

兩階段訓練策略中各階段的訓練數據構成和學習率調度的具體方法如下：

第一階段 ：

訓練數據 ：使用 1T tokens 的通用數據，包括 370B 一般文本數據、80B 數學數據和 50B 代碼數據。

學習率調度 ：采用 WSD 策略，初始學習率為 3e-4，經過 2K 步熱身階段后，保持學習率穩定。

超參數設置 ：批量大小為 1024，序列長度為 2048。

第二階段 ：

訓練數據 ：使用 20B tokens 的數據，增加數學和代碼數據的比例，最終包括 7B 一般文本數據、7B 數學數據和 7B Stack-Python-Edu 數據。

學習率調度 ：學習率從 3e-4 線性衰減到 1e-5。

超參數設置 ：批量大小為 1024，序列長度為 2048。

通過展示損失曲線圖，我們可以清晰地看到兩階段訓練策略的效果。在第二階段的初始階段，由于引入了隨機初始化的參數，P > 1 的模型損失略高于 P = 1 的模型。然而，隨著訓練的進行，模型迅速適應了這些新參數，并在處理少量數據后（約 0.0002T tokens），損失趨于穩定并逐漸降低。這表明兩階段訓練策略能夠快速提升模型性能，并且具有較強的適應性。

兩階段訓練的損失，使用權重為0.95的指數移動平均進行平滑

上圖展示了兩階段訓練策略的損失曲線，使用 0.95 的指數移動平均進行平滑處理。從圖中可以看出，第二階段訓練初期，P >1 的模型損失略高于 P=1 的模型，但隨著訓練的進行，損失迅速降低并趨于穩定，驗證了兩階段訓練策略的有效性。

此外，研究員還發現，在訓練后期，P 較大的模型（如 P=8）能夠逐漸拉開與 P 較小的模型（如 P=4 ）之間的差距。這進一步證明了 PARSCALE 在大規模數據訓練中的有效性，以及其隨著 P 增加而性能提升的趨勢。

下游任務性能表現

以 1.8B 模型為例，兩階段訓練后在多個下游任務上的性能表現顯著提升。

在 7 個通用任務中，隨著 P 的增加，模型的平均性能呈現出穩步提升的趨勢。例如，在 MMLU 任務上，P=8 時的性能達到 58.1%，相比 p=1 時的 55.0% 提升了 3.1 個百分點。在 3 個數學任務中，PARSCALE 的優勢更為明顯。以 GSM8K 任務為例，P=8 時的性能達到 34% 的相對提升，相比 P=1 時的 28.7% 提升了 5.3 個百分點。這表明 PARSCALE 在數學推理任務上具有顯著的優勢，能夠有效提升模型的推理能力。

在 8 個編碼任務中，PARSCALE 同樣展現出了良好的性能提升。例如，在 HumanEval 任務上，P=8 時的 Pass@1 達到 18.9%，相比 p=1 時的 12.8% 提升了 6.1 個百分點。這些結果表明，PARSCALE 在編碼任務上能夠顯著提升模型的性能，為代碼生成等應用場景提供了更強的支持。

特別是對于推理密集型任務，如 GSM8K 等，PARSCALE 的性能提升更為顯著。例如，在 GSM8K 任務上，P=8 時的性能達到 38.4%，相比 P=1 時的 28.7% 提升了 9.7 個百分點。這表明 PARSCALE 在處理復雜的推理任務時，能夠充分發揮其并行計算的優勢，顯著提升模型的推理能力和任務性能。

在使用兩階段策略從零開始訓練1T tokens后，1.8B模型的性能對比

上表展示了使用兩階段策略從頭開始訓練的 1.8B 模型的性能比較。結果表明，隨著 P 的增加，模型在多個下游任務上的性能顯著提升，驗證了兩階段訓練策略的有效性。

指令調優與應用

對兩階段訓練得到的模型進一步進行指令調優，PARSCALE 在指令遵循任務中的表現也得到了顯著提升。

以 IFEval 基準測試為例，隨著 P 的增加，模型的性能呈現出明顯的提升趨勢。例如，P=8 時的性能達到 59.5%，相比 P=1 時的 54.1% 提升了 5.4 個百分點。這表明 PARSCALE 在指令遵循任務中具有顯著的優勢，能夠有效提升模型對指令的理解和執行能力。

在調優過程中，發現 PARSCALE 的動態加權平均機制能夠根據不同的任務和輸入，靈活地調整各個并行流的權重。這種自適應的調整能力使得模型能夠在不同的任務中充分發揮各個并行流的優勢，從而實現性能的全面提升。此外，PARSCALE 的并行計算特性使得模型在處理指令任務時能夠更高效地利用計算資源，進一步提升了推理效率。

通過這些實驗結果，我們可以看到 PARSCALE 在指令調優中的顯著優勢。它不僅能夠提升模型的性能，還能在實際應用中提供更高效、更準確的服務，為指令遵循任務的發展提供了新的技術支持。

不同指令模型性能的比較，其中少樣本示例被視為多輪對話

上表展示了不同指令模型的性能比較，其中將少量樣本示例視為多輪對話。結果表明，PARSCALE 在指令遵循任務中表現優異，隨著 P 的增加，模型性能顯著提升。

在現成預訓練模型中的應用驗證

持續預訓練與參數高效微調

為了驗證 PARSCALE 在現成預訓練模型中的有效性，以 Qwen-2.5（3B）模型為例，進行了持續預訓練和參數高效微調（PEFT）實驗。

在持續預訓練方面，在 Stack-V2（Python）和 Pile 數據集上對 Qwen-2.5 模型進行了進一步訓練。通過引入 PARSCALE 的并行計算機制，模型在這些數據集上的性能得到了顯著提升。例如，在 Stack-V2（Python）數據集上，經過持續預訓練后，模型的訓練損失顯著降低，表明其在代碼理解和生成方面的能力得到了增強。

在參數高效微調（PEFT）方面，僅對 PARSCALE 引入的參數進行微調，而凍結了模型的主體權重。實驗結果表明，即使在凍結主體權重的情況下，PARSCALE 仍然能夠顯著提升模型的性能。例如，在 Stack-V2（Python）數據集上，經過 PEFT 后，模型在代碼生成任務上的性能提升了 8.5 個百分點。這表明 PARSCALE 的并行計算機制能夠有效地利用少量的訓練數據來提升模型的性能，具有很強的適應性和靈活性。

此外，動態并行擴展的靈活性和潛力也得到了充分展示。在不同應用場景中，我們可以靈活切換并行流數量 P，以適應不同的吞吐量和模型能力需求。例如，在高吞吐量的場景中，我們可以增加 P 值以提升模型的推理能力；而在低資源的場景中，我們可以減少 P 值以降低內存占用和推理延遲。這種靈活性使得 PARSCALE 能夠在多種應用場景中發揮其優勢，為模型的實際部署提供了更多的選擇。

實驗結果對比

在持續預訓練和 PEFT 實驗中，研究員通過訓練損失圖和代碼生成性能指標對 PARSCALE 的效果進行了對比分析。

在持續預訓練過程中，訓練損失圖顯示，隨著訓練的進行，PARSCALE 模型的損失逐漸降低，并且在相同的訓練數據量下，P 較大的模型損失更低。這表明 PARSCALE 能夠更有效地利用訓練數據來提升模型性能。

在代碼生成性能方面，經過 PEFT 后，PARSCALE 模型在 HumanEval 和 MBPP 等基準測試中的表現顯著提升。例如，在 HumanEval 數據集上，P = 8 時的 Pass@1 達到 25.0%，相比 P = 1 時的 18.9% 提升了 6.1 個百分點。這些結果表明，PARSCALE 在現成預訓練模型中的應用是有效的，能夠顯著提升模型的代碼生成能力。

(a)(b) 在兩個數據集上對Qwen-2.5-3B模型進行持續預訓練的損失情況。 (c) 在Stack-V2（Python）上微調后的代碼生成性能。

上圖（a）和（b）展示了在 Stack-V2（Python）和 Pile 數據集上持續預訓練 Qwen-2.5-3B 模型的損失曲線。圖 6（c）則展示了在 Stack-V2（Python）數據集上進行參數高效微調后的代碼生成性能。這些圖表驗證了 PARSCALE 在現成預訓練模型中的有效性。

通過這些實驗結果，我們可以看到 PARSCALE 在現成預訓練模型中的巨大潛力。它不僅能夠提升模型的性能，還能在實際應用中提供更靈活的部署方案，為模型的廣泛應用提供了有力支持。

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看