NVIDIA新模型Nemotron-4 340B系列:98%的訓練數據是合成生成的,你敢信?
- 標題:Nemotron-4 340B Technical Report
模型概述:Nemotron-4 340B系列模型的基本構成
Nemotron-4 340B系列模型包括三個主要版本:Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。這些模型是在NVIDIA開放模型許可協議下發布的,該協議允許模型及其輸出的分發、修改和使用。Nemotron-4 340B系列模型在多個評估基準測試中與其他開放訪問模型具有競爭力,并且設計為在單個DGX H100設備上使用8個GPU以FP8精度部署時能夠適應。這些模型特別適用于生成用于訓練較小語言模型的合成數據。值得注意的是,我們模型對齊過程中使用的數據中有超過98%是合成生成的,這展示了這些模型在生成合成數據方面的有效性。
訓練數據與預處理:詳細解析訓練數據的組成及預處理方法
Nemotron-4 340B系列模型的訓練數據混合包括三種不同類型的數據:英語自然語言數據(占70%)、多語言自然語言數據(占15%)和源代碼數據(占15%)。英語語料庫包括來自各種來源和領域的精選文檔,如網頁文檔、新聞文章、科學論文、書籍等。我們的多語言數據包含53種自然語言,由單語和平行語料庫的文檔組成,而我們的代碼數據集包括43種編程語言。這些數據共計訓練了9萬億個令牌,其中前8萬億令牌在正式的預訓練階段完成,最后1萬億令牌在持續的預訓練階段完成。
在預處理方面,我們采用了多種技術來確保數據質量和模型訓練的有效性。首先,我們對所有文本數據進行了清洗和標準化處理,去除了噪聲和不相關的信息。接著,我們使用了高級的分詞工具(如SentencePiece)來處理文本數據,確保了數據的一致性和可處理性。此外,為了提高模型訓練的效率和效果,我們還采用了高級的數據增強技術,如對話生成和質量過濾,以及偏好排名等方法來進一步優化訓練數據集。
通過這些精心設計的預處理和數據管理策略,Nemotron-4 340B系列模型能夠有效地從高質量的訓練數據中學習,并在多個任務和基準測試中展現出卓越的性能。
模型架構與訓練細節
Nemotron-4 340B模型系列包括Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。這些模型在單個DGX H100設備上部署時,可以在8個GPU上以FP8精度運行。Nemotron-4-340B-Base模型在訓練過程中使用了9萬億個高質量數據令牌。模型的架構是標準的解碼器僅Transformer架構,具有因果注意力掩碼,使用旋轉位置嵌入(RoPE)、SentencePiece分詞器,并在MLP層中使用平方ReLU激活函數。此外,該模型還采用了分組查詢注意力(GQA)技術。
在訓練細節方面,Nemotron-4-340B-Base使用768個DGX H100節點進行訓練,每個節點包含8個H100 80GB SXM5 GPU。這些GPU通過NVLink和NVSwitch連接,GPU之間的帶寬為900 GB/s。在訓練過程中,我們采用了8路張量并行、12路流水線并行以及數據并行技術,并使用分布式優化器來減少訓練過程中的內存占用。此外,我們還在訓練的最后階段引入了不同的數據分布和學習率衰減策略,以進一步提高模型的質量。
模型對齊與獎勵建模
1. 獎勵模型的重要性與構建
獎勵模型在模型對齊過程中扮演著至關重要的角色,它是用于偏好排序和質量過濾的關鍵工具。我們構建的獎勵模型基于Nemotron-4-340B-Base模型,通過替換最后的softmax層,加入一個新的獎勵“頭部”,這是一個線性投影,將最后一層的隱藏狀態映射到一個五維的HelpSteer屬性向量上。這些屬性值在推理時可以通過加權求和得到總體獎勵。我們發現這種獎勵模型在RewardBench上的表現非常優秀,達到了發布時的最高準確率。
2. 對齊數據的生成與利用
在整個模型對齊過程中,我們大量使用了合成數據生成(SDG)技術。特別是在監督微調和偏好微調階段,合成數據占到了98%以上。我們的合成數據生成流程包括合成提示生成、響應和對話生成、質量過濾和偏好排序等步驟。此外,我們還探索了使用真實世界的LMSYS提示,以及結合合成提示和LMSYS提示,確保訓練數據的多樣性和覆蓋面。
通過這些方法,我們不僅提高了模型的對齊質量,還通過迭代優化過程,不斷提升數據和模型的質量,實現了模型性能的持續提升。
高級對齊策略:從監督微調到偏好微調的詳細過程
1. 分階段的監督微調
在模型對齊的過程中,監督微調(Supervised Fine-Tuning,SFT)是第一步。傳統的SFT通常在單一階段內完成,涉及多種任務的混合數據集。然而,我們的實驗表明,同時學習多種行為有時會導致任務間的沖突,從而阻礙模型在所有任務上達到最佳對齊。特別是在編碼任務中,調整數據混合的采樣權重并未能使模型完全適應所有編碼任務。
為了解決這一問題,我們設計了一個兩階段的SFT策略,使模型能夠有序且逐步地學習不同的行為。這種方法在所有下游任務中都顯示出更優的結果。
代碼SFT:為了在不干擾其他任務的情況下提高編碼和推理能力,我們首先僅使用編碼數據進行SFT。我們發現,需要大量數據才能有效提升模型的編碼能力。我們為此開發了一種模擬進化過程的方法,通過自我指導和向導編碼突變生成大量合成樣本。這一過程設計為可以高效并行執行,以便根據需要擴展。
通用SFT:在第二階段,我們使用包含多種任務的混合數據集進行通用SFT,以減少遺忘風險。我們訓練模型三個周期,使用全局批量大小為128,并在[1e-7, 5e-7]范圍內進行學習率搜索。
2. 偏好微調的優化方法
在監督微調階段之后,我們通過偏好微調繼續改進模型,其中模型學習形式為(提示,選擇響應,拒絕響應)的三元組。具體來說,偏好微調階段包括使用直接偏好優化(Direct Preference Optimization, DPO)和我們的新對齊算法——獎勵感知偏好優化(Reward-aware Preference Optimization, RPO)的多次模型改進迭代。
直接偏好優化(DPO):DPO算法優化策略網絡,以最大化選定和拒絕響應之間的隱式獎勵差距。我們觀察到,盡管選擇的響應質量高,但選擇和拒絕響應的可能性都會隨著差距的增大而一致下降。為了緩解這些問題,我們在DPO損失中添加了一個加權SFT損失,以幫助策略網絡不會過多偏離偏好數據。
獎勵感知偏好優化(RPO):與DPO不同,RPO學習近似獎勵差距,這有助于防止過擬合問題,并避免“不學習”高質量的拒絕響應。我們使用從DPO訓練的檢查點作為初始化和參考策略,進一步使用RPO訓練模型。這種方法在所有任務上均能改善模型性能。
模型評估與人類評價:展示模型在自動基準測試和人類評價中的表現
自動基準測試
我們對Nemotron-4-340B-Instruct模型在多種自動基準測試上進行了全面評估。這些測試包括多輪對話、0-shot評估等,以評估模型在沒有先前示例的情況下準確遵循指令的能力。我們的模型在所有評估中均顯示出與現有開源模型相當或更優的性能。
人類評價
除了自動評估外,我們還通過訓練有素的注釋員團隊對模型進行了人類評價。注釋員根據六點Likert類型的量表評估了136個提示下的響應,這些提示涵蓋了10種不同的任務類別。我們的評價指南主要依據幫助性和真實性兩個維度,并在迭代細化過程中發現,通過考慮注釋員對響應長度的感知可以改善結果。這種方法有助于將個別的冗長偏好與模型遵循指令和提供有用答案的能力區分開來。
安全性評估:通過AEGIS安全模型評估Nemotron-4 340B的內容安全風險
在使用大型語言模型(LLM)的過程中,內容安全風險的評估變得尤為重要。為此,我們采用了NVIDIA開發的AEGIS安全模型來評估Nemotron-4 340B模型的安全性。AEGIS是一個高質量的內容安全解決方案和評估基準,它涵蓋了人類與LLM交互中的12個關鍵風險類別。這些類別包括基于種族、年齡、性別、宗教等的仇恨言論,性行為的描述,暴力行為的威脅,自我傷害的傾向,以及涉及犯罪計劃的內容等。
我們使用AEGIS測試分區中的提示來引發Nemotron-4 340B-Instruct和Llama-3-70B-Instruct的響應,然后通過AEGIS安全模型對這些響應進行評估。在安全模型的幫助下,我們能夠判斷模型生成的內容是否安全,以及是否存在違規的類別。
在評估結果中,Nemotron-4 340B-Instruct顯示出極低的不安全響應率。在記錄到的不安全響應中,涉及暴力、自殘、性侵犯未成年人、個人信息泄露、騷擾、威脅和需要謹慎處理的類別的響應極少。這一結果表明,Nemotron-4 340B-Instruct在內容安全性方面與Llama-3-70B-Instruct相當,體現了我們在模型開發中對安全性的重視。
總結:總結Nemotron-4 340B模型的創新點和實際應用前景
Nemotron-4 340B模型系列包括Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward,這些模型在開放許可下提供,支持廣泛的分發、修改和使用。這些模型在多個評估基準上的表現與其他開放訪問模型相當,尤其在生成合成數據以訓練更小的語言模型方面顯示出其有效性。
Nemotron-4 340B的一個重要創新是其對安全性的高度重視。通過與AEGIS安全模型的結合,Nemotron-4 340B能夠有效地評估和控制生成內容的安全性,減少生成有害或不當內容的風險。此外,該模型在合成數據生成、模型對齊和獎勵建模方面的應用,展示了其在實際應用中的廣泛前景,特別是在提高數據質量、優化模型性能和增強用戶交互體驗方面。
總的來說,Nemotron-4 340B模型的發布不僅推動了大型語言模型的研究和開發,也為AI應用的負責任使用提供了有力的工具和方法。我們期待這些模型能夠在未來的AI研究和應用中發揮更大的作用,特別是在安全性、數據生成和模型對齊等關鍵領域。
未來展望:探討大型語言模型的發展方向和挑戰
隨著大型語言模型(LLM)的不斷發展,其在多種任務和應用中的有效性已經得到了廣泛認可。然而,這些模型的發展也面臨著一系列挑戰和未來的發展方向。以下是對大型語言模型未來發展的探討,包括潛在的挑戰和可能的解決策略。
1. 模型規模的持續增長
大型語言模型如Nemotron-4 340B系列模型的發布,展示了模型規模的持續增長。這些模型在處理復雜任務時表現出色,但隨之而來的是對計算資源的巨大需求。例如,Nemotron-4-340B-Base模型在訓練時需要768個DGX H100節點,每個節點包含8個H100 80GB SXM5 GPU。這種規模的增長帶來了顯著的能源消耗和經濟成本。
2. 數據生成和模型對齊
為了提高模型的效果,越來越多的研究開始關注使用合成數據來訓練和對齊模型。Nemotron-4 340B系列模型中,超過98%的訓練數據是通過合成數據生成管道產生的。這種方法雖然能夠降低收集人工標注數據的成本,但同時也需要確保合成數據的質量和多樣性,以避免模型過度擬合或偏差。
3. 模型的道德和安全問題
隨著模型應用的廣泛化,其在生成內容的道德和安全性方面的挑戰也日益凸顯。例如,模型可能無意中生成有害內容或加劇偏見。因此,開發者需要在模型設計和訓練過程中加入更多的安全和道德考量,如使用AEGIS安全評估模型來監控和評估內容的安全性。
4. 模型的可解釋性和透明度
大型語言模型的決策過程往往是黑箱的,這對于模型的可信度和可接受度構成挑戰。提高模型的可解釋性,使其決策過程更加透明和可理解,是未來發展的一個重要方向。這不僅有助于用戶信任模型的輸出,也有助于開發者優化模型性能。
5. 持續的模型優化和迭代
隨著技術的進步和應用需求的變化,持續對模型進行優化和迭代是必要的。通過引入新的訓練策略如偏好優化和獎勵模型,可以進一步提升模型的性能和適應性。例如,Nemotron-4 340B系列模型采用了偏好優化和獎勵模型來改進指令遵循能力和對話質量。
總之,大型語言模型的發展前景廣闊,但同時也面臨著規模擴展、數據質量、安全性、可解釋性和持續優化等多方面的挑戰。通過不斷的技術創新和策略調整,有望解決這些挑戰,推動大型語言模型在更廣泛領域的應用和發展。
本文轉載自 ??AI論文解讀??,作者:柏企科技圈
