LLM 分布式訓練六大關鍵技術介紹原創精華

發布于 2024-12-13 10:31

瀏覽

0收藏

編者按： 本文聚焦于分布式去中心化神經網絡訓練技術，作者系統闡述了在大規模模型訓練中提高硬件使用效率的創新方法。
文章重點闡述了六種關鍵的分布式訓練技術：
數據并行訓練：通過將數據 mini-batches 分散到多個 workers，實現并行梯度計算和高效訓練。
Butterfly All-Reduce：通過創新的數據分割和匯總方法，有效降低通信成本。
Gossip-Based Averaging：去中心化的通信策略，提高系統的容錯性和可擴展性。
Moshpit Gradient Descent：允許 workers 在小型獨立組內進行梯度平均，增強訓練的容錯能力。
DiLoCo：創新的內外優化算法，結合局部和全局參數更新，平衡收斂速度和系統性能。
SWARM：引入動態任務分配和容錯機制，優化異構硬件環境下的資源配置。

作者 | Robert Lange

編譯 | 岳揚

隨著人工智能技術的發展進步，訓練大規模神經網絡（包括大語言模型）變得越來越重要。這些模型的規模和復雜度不斷提升，不僅增加了訓練的成本和能耗，也迫切要求我們提高硬件使用效率。為了應對這些挑戰，研究人員和工程師們正在探索分布式去中心化訓練方法。本文將探討多種分布式訓練技術，例如數據并行訓練方法和 Gossip-Based Averaging 方法，展示這些技術如何在滿足該領域不斷增長的需求的同時優化模型訓練效率。

LLM 分布式訓練六大關鍵技術介紹-AI.x社區

一幅以簡約日式風格繪制的GPU集群圖，圖中加入了很多小型 GPU（由 OpenAI 的 Dallé-3 API 生成）

01 數據并行訓練技術、全歸約操作與節點同步

數據并行訓練技術通過將數據的 mini-batches 分散到多個工作節點（workers）上，實現了高效的訓練。這種方法不僅加快了訓練進程，因為多個 workers 可以并行計算梯度，而且還使得我們可以處理比單個設備更大的 batch sizes。為了保持所有 workers 之間的模型更新同步，我們采用了全歸約操作。該操作會將所有 workers 的梯度匯總并求平均值，然后統一更新模型，確保整個分布式系統中的模型保持一致。

以下是用 PyTorch 在 Python 中展示這一過程的一個簡單示例：

LLM 分布式訓練六大關鍵技術介紹-AI.x社區

全歸約操作之外，還有一種方法是使用參數服務器（parameter server）。在這種架構中，中央服務器負責收集梯度信息并監控優化器的狀態。雖然這樣做可以簡化同步過程，但同時也存在單點故障的風險，并有可能成為系統性能的瓶頸。

分布式訓練中，Hogwild（Recht et al., 2011）[1]是另一項著名的技術。它采用異步更新模型參數的方法，無需所有計算節點同步即可進行。這種方法不僅適用于監督學習，也適用于強化學習（RL）場景，如異步演員-評論家算法（A3C, Mnih et al., 2016）[2]。在 A3C 中，多個智能體可以同時與環境互動，并基于各自的經驗異步更新同一個模型。這樣做不僅提高了資源的使用效率，還能通過多個智能體的不同經驗加快收斂速度，從而提高在復雜環境中的性能。

除了數據并行訓練方法，還有模型并行和管道并行等其他并行訓練方法（詳見 Llian Weng 的博客[3]）。模型并行是將模型分割到多個計算設備上，使得模型的不同部分可以同時處理，這對于那些單個設備無法承載的超大型模型尤其有用。而管道并行則是將模型分為幾個階段，各個 mini-batches 數據依次通過這些階段進行處理，這樣做可以實現計算與通信的并行，從而提高訓練的整體效率和吞吐量。這些技術互為補充，共同優化了大規模訓練場景下的資源利用。

02 Butterfly All-Reduce

Butterfly All-Reduce（Zhao和Canny，2013）技術有效地解決了傳統全歸約方法所面臨的挑戰。在這種技術中，每個參與的節點（共 N 個）都會將其本地數據分割成 N 份。然后，第 i 個節點會收集所有其他節點發來的第 i 份數據，進行匯總后，再平均分配回各個節點。

這種方法大幅降低了通信的負擔，并提升了系統的可擴展性。 在分布式訓練中，所謂的“world size”是指參與訓練的總進程或設備數。這個參數對于決定如何在各個節點間聚合和同步數據起到了關鍵作用。

以下是對 Butterfly All-Reduce 技術的一個概念性實現示例：

LLM 分布式訓練六大關鍵技術介紹-AI.x社區

這段代碼展示了 butterfly all-reduce 技術如何在保持分布式系統同步的同時，有效利用并行處理的優勢。

butterfly all-reduce 方法的優勢在于，與傳統的全歸約技術相比，它能夠顯著降低通信成本，并且具有更好的可擴展性，因此非常適合用于大規模分布式系統。然而，這種方法也存在一些不足之處。例如，其實現過程較為復雜，性能可能會受到通信網絡拓撲結構和網絡狀況的影響。另外，如果參與節點中的任何一個發生故障，可能會對整個系統的同步過程造成影響。

在某些特定的應用場景，尤其是聯邦學習中，訓練過程需要能夠適應不穩定的網絡帶寬和不可靠的工作節點。聯邦學習尤為復雜，因為它涉及多個持有敏感隱私數據的獨立參與節點。這些情況要求我們必須采用穩健的策略，以確保模型訓練的可靠性。接下來，我們將探討一些方法，這些方法的目的是平衡收斂速度和系統的容錯能力。

03 Gossip-Based Averaging

gossip-based averaging（Boyd等人，2005年）是一種去中心化的通信策略，其中的參與節點構建了一個稀疏的通信網絡。每個節點定期從鄰近節點獲取參數，并將其與自己的本地參數進行結合。這種方式減輕了參數服務器（parameter servers）帶來的通信壓力，但也意味著每個節點可能會使用不同的本地參數進行計算。

gossip-based averaging 的收斂特性深受通信網絡結構的影響。以下是一個簡單的 gossip-based averaging 實現示例：

LLM 分布式訓練六大關鍵技術介紹-AI.x社區

gossip-based averaging 具有以下優勢：

減少通信瓶頸：由于不需要集中的參數服務器，gossip averaging 大幅降低了通信擁堵，使得參數更新更加高效。
可擴展性：這種方法的去中心化特點使得它在擴展性方面表現出色，能夠輕松應對參與節點數量的增加，而不會產生過多的額外開銷。
容錯性：分布式的設計提升了系統的容錯能力，即使有 worker 出現故障，也不會中斷整個訓練過程；其他 workers 仍可以繼續通信和更新參數。

然而，我們也需要注意到這種方法可能帶來的幾個不足之處：

收斂速度降低：與集中式更新方法相比，gossip averaging 的收斂速度可能會較慢，因為參數的聚合并不頻繁，每個 worker 可能需要基于不太新的數據進行計算。
參數更新存在分歧：由于每個節點使用的是不同的本地參數，這可能會導致參數更新存在分歧，進而影響收斂的穩定性和速度。
依賴通信圖：gossip averaging 的效果在很大程度上受制于通信圖的結構。如果圖的連通性不佳或者結構不平衡，可能會影響到算法的整體性能。

綜合來看，盡管 gossip-based averaging 這種去中心化的參數更新方法具有很大的潛力，但在實際應用中，我們需要根據具體的訓練場景，權衡其利弊。

04 Moshpit Gradient Descent

Moshpit Gradient Descent（Ryabinin et al., 2021）[4]方法進一步發展了去中心化訓練的理念，它允許 workers 在小型且獨立的組內進行梯度平均。這種設計意味著，即使某個參與節點出現問題，影響的也僅限于其所在的小組，從而提高了整個訓練過程的容錯性，避免了全局訓練的中斷。

這些小組的動態構建對于保證訓練的有效性至關重要。通過優化小組結構，該方法大幅減少了達到收斂所需的步驟數，因為 workers 可以在較小的團隊內更高效地交換和更新梯度信息。這種自適應的分組策略有助于更好地利用現有資源，并在不同的網絡環境下實現更優的性能表現。

以下是一個實施 moshpit gradient descent 的概念性框架：

LLM 分布式訓練六大關鍵技術介紹-AI.x社區

moshpit gradient descent 的優勢包括：

容錯性：個別 worker 的故障只會影響其所在的小組，不會波及整個訓練過程，其他小組可以繼續正常訓練。
資源利用效率：在較小的小組內進行更新，該方法能夠靈活應對網絡狀況和 worker 可用性的變化，從而提升訓練效率。
降低通信負擔：由于通信僅限于小組內部，整體的通信量得以減少，這在帶寬受限的情況下尤為有利。

然而，這一方法也存在一些不足之處：

收斂難題：小組結構的不斷變化可能導致參數更新出現不一致，可能會使得訓練的收斂和穩定性面臨挑戰。
管理復雜性增加：對小組進行動態管理和調整，無疑增加了訓練流程的復雜性。為了找到最佳的小組配置，我們需要開發更復雜的機制。
可擴展性問題：較小的小組雖然有助于提高系統的容錯性，但如果沒有有效的管理，這種方法在大規模訓練場景中的可擴展性可能會受限。

綜合來看，moshpit gradient descent 作為一種去中心化訓練的新方法，其潛力不容小覷。它在容錯能力和資源利用效率上的優勢，與面臨的收斂難題和實施復雜性之間，實現了微妙的平衡。

05 DiLoCo: Inner-Outer Optimization

DiLoCo（Douillard等人，2023年）[5]帶來了一種創新的 inner-outer 優化算法，旨在提高去中心化訓練的效率。在這種算法中，每個計算節點在內部優化階段，會利用局部的 AdamW 優化器進行多次參數更新。這樣的設計讓節點能夠基于局部數據獨立優化參數，而不必實時與其他節點同步。當完成了一定量（通常是500次左右的）局部更新后，便進入外部優化階段，此時會同步所有節點的偽梯度（這些梯度是局部更新結果的匯總）。

這種做法巧妙地結合了局部和全局更新的優勢，有望加快收斂速度并提升訓練表現。DiLoCo 通過讓節點先在局部優化參數，再與全局模型同步，充分發揮了兩種更新策略的長處。

以下是對 DiLoCo 更新過程的概念性描述：

LLM 分布式訓練六大關鍵技術介紹-AI.x社區

DiLoCo 最初由 Google DeepMind 實現，而現在一家新興的初創公司 PrimeIntellect 也成功復現了這一方法。OpenDiLoCo（Jaghouar等人，2024年）[6]已在 GitHub[7] 上公開，借助 Hivemind 庫[8]訓練了一個 10 億參數的模型。最近，PrimeIntellect 推出了自家研發的定制化基礎設施[9]，其中包含了諸多工程創新，如定制的 all-reduce 算法和通信協議。該公司目前正在訓練一個名為 Intellect-1[10] 的 100 億參數模型。我相信這項實驗的結果將對我們突破現有模式產生深遠影響。目前，大模型的訓練還依賴于集中的計算資源。但未來，或許每個人都能為打造下一代領先的基礎模型貢獻力量。

06 SWARM: Fault Tolerance and Dynamic Task Assignment

SWARM 算法（Ryabinin等，2023年）[11]引入了一種新穎的分布式訓練方法，允許每個工作節點在訓練過程的后續階段將其輸出發送給其他工作節點。這種靈活的任務分配方式，使得計算能力較強的設備能夠承擔更多任務，從而在多樣化的硬件環境中實現資源的最優配置。這種策略在計算資源波動較大的場景下尤為有效，可實現更均衡的工作量，減少閑置時間。

面對工作節點的故障，SWARM 算法展現了其容錯能力，能夠迅速將故障節點的任務轉交給其他正常運行的節點。這一機制對于維持訓練流程的連貫性至關重要，它有效減少了意外中斷的影響，并確保了處理能力的及時補充。工作節點間的通信路徑是隨機且動態調整的，這使得算法能夠根據網絡狀況或節點狀態的變動實時調整。

通過這種自適應的通信方式，不僅數據流轉更加高效，訓練過程的穩定性也得到了加強。下面是 SWARM 通信實現方式的簡化示例：

LLM 分布式訓練六大關鍵技術介紹-AI.x社區

在這個示例中，每個活躍的工作節點隨機選取一個相鄰節點作為信息傳遞的對象，這樣的去中心化交流模式能夠實時適應當前系統的狀態。SWARM 算法以其動態任務分配和強大的容錯能力，在大規模機器學習場景中顯著提高了分布式訓練的效率和可靠性。

07 Conclusion

分布式去中心化訓練為高效訓練大規模神經網絡提供了一個強有力的支撐。借助數據并行訓練方法、butterfly all-reduce、gossip-based averaging 等手段，從業人員能夠在各種環境中應對模型訓練的難題。對于任何想要優化大規模 AI 系統性能的人來說，掌握這些技術至關重要。隨著該領域研究的不斷深入，了解這些方法將是發揮分布式訓練全部實力的關鍵。本文并非涵蓋所有分布式訓練方法和最新研究進展，而是提供一個粗略的概覽——因此，還請讀者自行探索更多技術細節??。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Robert Lange

Deep Learning PhD @TU Berlin. Research Scientist @Sakana.AI. ?? 2x Google DeepMind Intern

END

本期互動內容 ??

?在分布式訓練中，您認為最大的技術瓶頸是什么？是通信開銷、收斂速度、還是系統的容錯性，或是其他？

??文中鏈接??

[1]??https://proceedings.neurips.cc/paper_files/paper/2011/file/218a0aefd1d1a4be65601cc6ddc1520e-Paper.pdf??

[2]??https://arxiv.org/abs/1602.01783??

[3]??https://lilianweng.github.io/posts/2021-09-25-train-large/??