一夜小模型王座易主！英偉達發(fā)布超強小模型，性能、速率、緩存全面超越Llama3.2！原創(chuàng)

51CTO技術棧

發(fā)布于 2024-11-25 14:54

瀏覽

0收藏

編輯｜言征

小模型王座一夜易主了！冷不防，英偉達就丟出了一個新混合架構，以后不再只是Transformer的天下了。

日前，NVIDIA剛剛發(fā)布了Hymba-1.5B-Base，這是一個將Transformer注意力機制與狀態(tài)空間模型（SSM）集成的小型語言模型。

這種全新的混合架構只使用1.5T的Tokens進行訓練，性能、速度卻全面超越了市面上主流的所有小模型！英偉達的科學家兼研究經(jīng)理Pavlo Molchanov在X上宣布了這一最新發(fā)展。

一夜小模型王座易主！英偉達發(fā)布超強小模型，性能、速率、緩存全面超越Llama3.2！-AI.x社區(qū) 圖片

Hugging Face 的技術負責人及大型語言模型（LLMs）專家 Philipp Schmid 對此發(fā)展發(fā)表評論說：“Hymba 在僅使用1.5萬億個標記進行訓練的條件下，性能超越了其他小型大型語言模型，如Meta 3.2或SmolLM v2。”

一夜小模型王座易主！英偉達發(fā)布超強小模型，性能、速率、緩存全面超越Llama3.2！-AI.x社區(qū) 圖片

1.雙重架構、精確回憶、高效上下文

據(jù)“抱抱臉”上公開資料顯示，Hymba-1.5B-Base是在今年年9月1日至2024年11月10日期間進行訓練的，許可證方面則根據(jù)NVIDIA開放模型許可協(xié)議發(fā)布。

Hymba模型使用雙重結構，具有精確回憶的注意力頭和高效上下文總結的SSM頭。

具體來講，其特點在于采用了混合頭并行架構，該架構將Transformer注意力機制與狀態(tài)空間模型（SSM）相結合，以提高效率。注意力頭提供高分辨率的回憶能力，而SSM頭則實現(xiàn)高效的上下文總結。此外，模型還引入了可學習的Meta標記，這些標記被添加到提示之前，用于存儲關鍵信息，并減輕與注意力機制相關的“被迫關注”負擔。通過引入跨層鍵值（KV）共享和部分滑動窗口注意力，該模型得到了進一步優(yōu)化，從而實現(xiàn)了緊湊的緩存大小。

在一項對比相同設置下不同架構的受控研究中，Hymba-1.5B-Base 展現(xiàn)出了顯著優(yōu)勢。

它在所有公開可用的、參數(shù)少于20億的模型中表現(xiàn)優(yōu)異，并以平均準確率高出1.32%、緩存大小減少11.67倍、吞吐量提升3.49倍的成績超越了Llama-3.2-3B。

一夜小模型王座易主！英偉達發(fā)布超強小模型，性能、速率、緩存全面超越Llama3.2！-AI.x社區(qū)

2.模型架構非常巧妙

Hymba-1.5B-Base是一款基礎文本到文本的模型，可用于多種自然語言生成任務。論文《Hymba: A Hybrid-head Architecture for Small Language Models》進一步闡述了模型的思想和實驗對比。

論文地址：https://arxiv.org/pdf/2411.13676

該模型采用混合架構，其中Mamba和注意力頭并行運行。每個提示前都會添加一組可學習的標記（稱為Meta標記），以提高模型的有效性。該模型在兩層之間以及單層內的各個頭之間共享鍵值（KV）緩存。90%的注意力層采用滑動窗口注意力機制。

Hymba-1.5B-Base的模型嵌入大小為1600，擁有25個注意力頭，MLP中間維度為5504，總層數(shù)為32層，16個SSM狀態(tài)，3個全注意力層，其余為滑動窗口注意力層。與標準Transformer不同，Hymba中的每個注意力層都并行結合了標準注意力頭和Mamba頭的混合組合。此外，它還使用了分組查詢注意力（GQA）和旋轉位置嵌入（RoPE）。

一夜小模型王座易主！英偉達發(fā)布超強小模型，性能、速率、緩存全面超越Llama3.2！-AI.x社區(qū) 圖片

概括來講，這架構有三個值得注意的特點：

首先，在同一層內融合注意力頭和SSM頭，對相同輸入進行并行且互補的處理；此外，還引入了元標記（meta tokens），這些標記被添加到輸入序列的前面，并與所有后續(xù)標記進行交互，從而存儲重要信息并減輕注意力中“必須關注”的負擔；最后，還結合了跨層KV共享和全局-局部注意力，進一步提升內存和計算效率。

一夜小模型王座易主！英偉達發(fā)布超強小模型，性能、速率、緩存全面超越Llama3.2！-AI.x社區(qū) 圖片

3.性能超越所有主流小模型，包括Llama3.2

Hymba-1.5B-Base在所有低于20億的公開模型中表現(xiàn)優(yōu)異。

一夜小模型王座易主！英偉達發(fā)布超強小模型，性能、速率、緩存全面超越Llama3.2！-AI.x社區(qū) 圖片

研究人員從準確率、緩存大小、處理速度三個方面綜合評估了現(xiàn)在主流的小語言模型，比如Meta的Llama3.2-1B、Apple的OpenELM-1B、微軟的Phi-1.5B、抱抱臉的SmoILM2-1.7B、阿里巴巴的Qwen2.5-1.5B等。

綜合評估和消融研究表明，Hymba不僅在眾多具有代表性的任務中樹立了新的最優(yōu)（SOTA）基準性能，而且在效率方面相比Transformer和之前的混合模型也更高。例如，在常識推理任務中，Hymba-1.5B的平均準確率比Llama-3.2-3B高出1.32%，而所需的緩存大小卻小了11.67倍，速度快了3.49倍。

一夜小模型王座易主！英偉達發(fā)布超強小模型，性能、速率、緩存全面超越Llama3.2！-AI.x社區(qū) 圖片