英偉達最強通用大模型Nemotron-4登場！15B擊敗62B，目標單張A100/H100可跑

作者：新智元 2024-02-29 13:54:00

人工智能新聞

許久未更新大模型的英偉達推出了150億參數(shù)的Nemotron-4，目標是打造一個能在單個A100/H100可跑的通用大模型。

最近，英偉達團隊推出了全新的模型Nemotron-4，150億參數(shù)，在8T token上完成了訓練。

值得一提的是，Nemotron-4在英語、多語言和編碼任務方面令人印象深刻。

論文地址：https://arxiv.org/abs/2402.16819

在7個評估基準上，與同等參數(shù)規(guī)模的模型相比，Nemotron-4 15B表現(xiàn)出色。

甚至，其性能超過了4倍大的模型，以及專用于多語言任務的模型。

如今LLM已經(jīng)非常多了，英偉達新發(fā)布的語言模型，有何不同？

打造最強通用LLM，單個A100/H100可跑

最近發(fā)表的LLM研究受到了Chinchilla模型「縮放定律」的啟發(fā)——給定固定計算預算，數(shù)據(jù)和模型大小一同優(yōu)化。

而過去，研究主要針對模型大小進行縮放。

研究表明，給定兩個數(shù)據(jù)分布類似的IsoFLOP GPT模型，一個是在1.4萬億token上的65億參數(shù)模型，另一個是3000億token上的2800億參數(shù)模型。

顯然，65B的模型在下游任務上的準確性更高。

從推理的角度來看，將計算分配給更多數(shù)據(jù)的訓練，而不是增加模型大小特別有吸引力，可以減少延遲和服務模型所需的計算量。

因此，語言建模訓練工作的主要焦點已轉向從CommonCrawl等公共資源中，收集高質量的數(shù)萬億token數(shù)據(jù)集。

對此，英偉達研究人員提出了Nemotron-4 15B，來延續(xù)這一趨勢。

具體來說，Nemotron-4 15B是在8萬億個token，包括英語、多語種、編碼文本的基礎上進行訓練。

英偉達稱，Nemotron-4 15B的開發(fā)目的：

成為能在單個英偉達A100或H100 GPU上運行的最佳「通用大模型」。

架構介紹

Nemotron-4采用了標準的純解碼器Transformer架構，并帶有因果注意掩碼。

核心的超參數(shù)，如表1所示。

Nemotron-4有32億個嵌入?yún)?shù)和125億個非嵌入?yún)?shù)。

研究人員使用旋轉位置編碼（RoPE）、SentencePiece分詞器、MLP層的平方ReLU激活、無偏置項（bias terms）、零丟失率，以及無限制的輸入輸出嵌入。

通過分組查詢關注（GQA），可實現(xiàn)更快的推理和更低的內(nèi)存占用。

數(shù)據(jù)

研究人員在包含8萬億個token的預訓練數(shù)據(jù)集上訓練Nemotron-4 15B。

分為三種不同類型的數(shù)據(jù)：英語自然語言數(shù)據(jù)（70%）、多語言自然語言數(shù)據(jù)（15%）和源代碼數(shù)據(jù)（15%）。

英語語料庫由來自各種來源和領域的精選文檔組成，包括網(wǎng)絡文檔、新聞文章、科學論文、書籍等。

代碼和多語言數(shù)據(jù)包括一組多樣化的自然語言和編程語言。

研究人員發(fā)現(xiàn)，從這些語言中適當?shù)夭蓸觮oken是在這些領域獲得高準確度的關鍵。

此外，研究人員分別在圖3和圖4中共享預訓練數(shù)據(jù)集中用于代碼和多語言標記的分布。

預訓練

Nemotron-4使用384個DGX H100節(jié)點進行訓練。每個節(jié)點包含8個基于英偉達Hopper架構的H100 80GB SXM5 GPU。

在執(zhí)行無稀疏性的16位浮點（bfloat16）算術時，每個H100 GPU的峰值吞吐量為989 teraFLOP/s。

每個節(jié)點內(nèi)，GPU通過NVLink和NVSwitch（nvl）連接；GPU到GPU的帶寬為900 GB/s（每個方向450 GB/s）。

每個節(jié)點都有8個NVIDIA Mellanox 400 Gbps HDR InfiniBand主機通道適配器（HCA），用于節(jié)點間通信。

研究人員使用8路張量并行和數(shù)據(jù)并行的組合來訓練模型，還使用了分布式優(yōu)化器，將優(yōu)化器狀態(tài)分片到數(shù)據(jù)并行副本上。隨著批大小的增加，數(shù)據(jù)并行度從96增加到384。

表2總結了批大小提升的3個階段，包括每次迭代時間和模型FLOP/s利用率（MFU）。MFU量化了GPU在模型訓練中的利用效率。訓練大約在13天內(nèi)完成。

再訓練

與最近的研究類似，研究人員發(fā)現(xiàn)在模型訓練結束時，切換數(shù)據(jù)分布和學習率衰減時間表，可以極大地提高模型質量。

具體來說，在對整個8T預訓練數(shù)據(jù)集進行訓練之后，使用相同的損失目標，并對與預訓練token相比的較少的token進行持續(xù)訓練。

在這一額外的繼續(xù)訓練階段，利用兩種不同的數(shù)據(jù)分布。

第一個分布是，從持續(xù)訓練期間大部分token采樣。它利用在預訓練期間已經(jīng)引入的token，但其分布將更大的采樣權重放在更高質量來源上。

第二個分布，引入了少量基準式對齊示例，以更好地讓模型在下游評估中回答此類問題，同時還增加來自模型性能較低區(qū)域的數(shù)據(jù)源的權重。

實驗結果

研究人員在涵蓋各種任務和領域的下游評估領域評了 Nemotron-4 15B。

常識推理

作者使用LM-Evaluation Harness在所有上述任務中評估Nemotron-4 15B。

表3顯示了Nemotron-4 15B在這組不同的任務中實現(xiàn)了最強的平均性能。

熱門的綜合基準

從表4可以看出，Nemotron-4 15B在現(xiàn)有模型中獲得了BBH的最佳分數(shù)，增長了近7%。

此外，Nemotron-4在BBH基準測試中明顯優(yōu)于LLaMA-2 70B模型，其中LLaMA-2 70B的得分為51.2，Nemotron-4的得分為58.7。

Nemotron-4 15B另外還獲得了極具競爭力的MMLU分數(shù)。

數(shù)學和代碼

表5重點介紹了Nemotron-4 15B在數(shù)學和代碼任務上的性能。

具體來說，在數(shù)學推理上，Nemotron-4 15B表現(xiàn)強勁，得分與Gemma 7B相似，但落后于Baichuan-2和QWEN等模型。

在代碼任務中，Nemotron-4的性能與QWEN 14B相當，但略落后于Gemma 7B。

在這兩種類型的任務中，Nemotron-4 15B的性能均優(yōu)于Mistral 7B和LlaMA-213B/34B。

幾乎所有類似規(guī)模的開放模型都只根據(jù)Python相關任務的性能來確定其代碼能力，而忽略了對其他編程語言能力的評估。

在表6中，展示了Nemotron-4 15B在Multiple-E基準上的結果，涉及11種不同的編程語言。

結果發(fā)現(xiàn)，Nemotron-4 15B在各種編程語言中都有很強的編碼性能，平均性能優(yōu)于Starcoder和Mistral 7B。

研究人員特別強調了Nemotron-4 15B在Scala、Julia和R等低資源編程語言上的卓越性能。

多語言

分類

在表7中，可以清楚地看到Nemotron-4在所有模型中實現(xiàn)了最佳性能，在4次設置中實現(xiàn)了近12%的改進。

生成

表8顯示Nemotron-4 15B實現(xiàn)了最佳性能。

令人印象深刻的是，Nemotron-4 15B能夠顯著改進下一個最佳模型PaLM 62B-cont。

表9顯示了MGSM上的性能，進一步證明了Nemotron-4 15B令人印象深刻的多語言能力。

在這項評估數(shù)學和多語言能力交集的挑戰(zhàn)性任務中，Nemotron-4 15B在比較模型中實現(xiàn)了最佳性能，并且比最接近的分數(shù)提高了近30%。

機器翻譯

如表10所示，Nemotron-4 15B的性能遠遠優(yōu)于LLaMA-2 13B和Baichuan-2 13B，性能分別提高了90.2%和44.1%。

Nemotron-4 15B不僅在中文翻譯成英文方面表現(xiàn)出色，而且在中文直接翻譯成其他語言方面也能取得令人印象深刻的效果。

這種能力凸顯了Nemotron-4 15B對廣泛的自然語言的深刻理解。

責任編輯：張燕妮來源：新智元

數(shù)據(jù)訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達最強通用大模型Nemotron-4登場！15B擊敗62B，目標單張A100/H100可跑

打造最強通用LLM，單個A100/H100可跑

架構介紹

實驗結果

多語言