騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主原創(chuàng)

發(fā)布于 2024-11-6 15:58

瀏覽

0收藏

騰訊最近發(fā)布了一款名為Hunyuan的先進(jìn)Moe（Mixture of Experts）模型，該模型在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色，超越了Llama 3，成為自然語(yǔ)言處理（NLP）領(lǐng)域的新領(lǐng)導(dǎo)者。地址如下：

github: https://github.com/Tencent/Tencent-Hunyuan-Large/blob/main/README_CN.md
hf: https://huggingface.co/tencent/Tencent-Hunyuan-Large

以下是Hunyuan模型的一些關(guān)鍵優(yōu)勢(shì)：

合成數(shù)據(jù)增強(qiáng)：Hunyuan-Large通過(guò)合成數(shù)據(jù)增強(qiáng)訓(xùn)練，能夠?qū)W習(xí)到更豐富的表示，處理長(zhǎng)上下文輸入，并更好地泛化到未見(jiàn)數(shù)據(jù)。
KV緩存壓縮：采用分組查詢注意力（GQA）和跨層注意力（CLA）策略，顯著減少了KV緩存的內(nèi)存占用和計(jì)算開(kāi)銷，提高了推理吞吐。
專家特定學(xué)習(xí)率縮放：為不同專家設(shè)置不同的學(xué)習(xí)率，確保每個(gè)子模型都能有效地從數(shù)據(jù)中學(xué)習(xí)，并為整體性能做出貢獻(xiàn)。
長(zhǎng)上下文處理能力：預(yù)訓(xùn)練模型支持高達(dá)256K的文本序列，Instruct模型支持128K的文本序列，顯著提升了長(zhǎng)上下文任務(wù)的處理能力。
廣泛的基準(zhǔn)測(cè)試：在多種語(yǔ)言和任務(wù)上進(jìn)行廣泛實(shí)驗(yàn)，驗(yàn)證了Hunyuan-Large的實(shí)際應(yīng)用效果和安全性。

推理框架：

騰訊為Hunyuan-Large模型提供了vLLM-backend推理框架。該框架在vLLM開(kāi)源框架的基礎(chǔ)上進(jìn)行了適配，新增的CLA結(jié)構(gòu)可以節(jié)省顯存，保障超長(zhǎng)文本場(chǎng)景。通過(guò)FP8量化優(yōu)化，相比FP16/BF16常規(guī)量化，在最大限度保障精度的條件下，節(jié)省50%顯存，吞吐提升70%。

訓(xùn)練框架：

Hunyuan-Large模型已經(jīng)支持huggingface格式，用戶可以采用hf-deepspeed框架進(jìn)行模型精調(diào)。同時(shí)，騰訊也支持利用flash-attn進(jìn)行訓(xùn)練加速，并開(kāi)放了相關(guān)的訓(xùn)練腳本和模型實(shí)現(xiàn)，方便研發(fā)者進(jìn)行后續(xù)的模型訓(xùn)練和精調(diào)。

Benchmark評(píng)估榜單：

在多個(gè)基準(zhǔn)測(cè)試中，Hunyuan-Large預(yù)訓(xùn)練模型與具有相似激活參數(shù)大小的Dense和MoE競(jìng)爭(zhēng)對(duì)手相比，實(shí)現(xiàn)了最佳的整體性能。在常識(shí)理解和推理以及經(jīng)典的NLP任務(wù)，如QA和閱讀理解任務(wù)方面表現(xiàn)出色。在數(shù)學(xué)能力方面，Hunyuan-Large在GSM8K和Math數(shù)學(xué)數(shù)據(jù)集上優(yōu)于所有基線，在CMATH中文數(shù)據(jù)集上也取得了最好的成績(jī)。同時(shí)，Hunyuan-Large在所有中文任務(wù)中實(shí)現(xiàn)了整體最佳的性能。

騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主-AI.x社區(qū)

Hunyuan-Large-Instruct與具有相似激活參數(shù)的llm相比在大多數(shù)的任務(wù)上實(shí)現(xiàn)了一致的性能提升。在不同類別的基準(zhǔn)測(cè)試中，Instruct模型在MMLU和MATH數(shù)據(jù)集上取得了最好的性能。值得注意的是，在MMLU數(shù)據(jù)集上，表現(xiàn)出了顯著的提升，相比與LLama3.1-405B模型高出2.6%。這種增強(qiáng)表明Hunyuan-Large-Instruct在廣泛的語(yǔ)言理解任務(wù)中具有優(yōu)越的理解和推理能力。該模型在MATH數(shù)據(jù)集上的表現(xiàn)進(jìn)一步強(qiáng)調(diào)了它的實(shí)力，相比于LLama3.1-405B高出了3.6%的指標(biāo)。值得注意的是，僅用520億個(gè)激活參數(shù)就實(shí)現(xiàn)了精度的飛躍，證明了Hunyuan-Large-Instruct的卓越能力。

騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主-AI.x社區(qū)