120億Stable LM 2上線即開源！2萬億token訓(xùn)練，碾壓Llama 2 70B

作者：新智元 2024-04-09 13:21:00

Stability AI推出Stable LM 2 12B模型，作為其新模型系列的進(jìn)一步升級(jí)，該模型基于七種語言的2萬億Token進(jìn)行訓(xùn)練，擁有更多參數(shù)和更強(qiáng)性能，據(jù)稱在某些基準(zhǔn)下能超越Llama 2 70B。

繼16億輕量級(jí)Stable LM 2推出之后，12B參數(shù)的版本在今天亮相了。

見狀，不少網(wǎng)友紛紛喊話：干的漂亮！但，Stable Diffusion 3啥時(shí)候出啊？

總得來說，Stable LM 2 12B參數(shù)更多，性能更強(qiáng)。

120億參數(shù)版本包含了基礎(chǔ)模型和指令微調(diào)模型，并在七種多語言，高達(dá)2萬億Token數(shù)據(jù)集上完成訓(xùn)練。

在基準(zhǔn)測(cè)試中，其性能趕超Llama 2 70B等開源模型。

官博介紹，最新版本的模型兼顧了性能、效率、內(nèi)存需求和速度，同時(shí)繼續(xù)采用了Stable LM 2 1.6B模型的框架。

通過這次更新，研究人員還為開發(fā)者提供了一個(gè)透明而強(qiáng)大的工具，以推動(dòng)AI語言技術(shù)的創(chuàng)新。

模型地址：https://huggingface.co/stabilityai/stablelm-2-12b

雖然目前只支持4K的上下文窗口，但你先別急。

Stability AI表示很快就會(huì)推出更長(zhǎng)的版本，并且可以第一時(shí)間在Hugging Face上獲取。

12B參數(shù)即可實(shí)現(xiàn)SOTA

Stable LM 2 12B是一個(gè)專為處理多種語言任務(wù)設(shè)計(jì)的高效開源模型，它能夠在大多數(shù)常見硬件上流暢運(yùn)行。

值得一提的是，Stable LM 2 12B可以處理通常只有大模型才能完成的各種任務(wù)。

比如混合專家模型（MoE），往往需要大量的計(jì)算和內(nèi)存資源。

此外，指令微調(diào)版本在工具使用，以及函數(shù)調(diào)用展現(xiàn)出強(qiáng)大的能力，可以適用于各種用途，包括作為檢索RAG系統(tǒng)的核心部分。

性能評(píng)估

在性能方面，參與對(duì)比的有Mixtral（MoE，總共47B/激活13B）、Llama2（13B和70B）、Qwen 1.5（14B）、Gemma（8.5B）和Mistral（7B）。

根據(jù)Open LLM Leaderboard和最新修正的MT-Bench基準(zhǔn)測(cè)試的結(jié)果顯示，Stable LM 2 12B在零樣本以及少樣本的任務(wù)上展現(xiàn)了出色的性能。

MT Bench

Open LLM Leaderboard

0-Shot NLP Tasks

在這個(gè)新版本中，他們將StableLM 2系列模型擴(kuò)展到了12B類別，提供了一個(gè)開放、透明的模型，在功率和精度方面絲毫不打折扣。

Stable LM 2 1.6B技術(shù)報(bào)告

最初發(fā)布的Stable LM 2 1.6B已經(jīng)在Open LLM 排行榜上取得了領(lǐng)先地位，證明了其在同類產(chǎn)品中的卓越性能。

論文地址：https://arxiv.org/abs/2402.17834

模型預(yù)訓(xùn)練

訓(xùn)練大模型（LLM）的第一階段主要是學(xué)習(xí)如何利用大量不同的數(shù)據(jù)源來預(yù)測(cè)序列中的下一個(gè)token，這一階段也被稱之為訓(xùn)練。

它使模型能夠構(gòu)建適用于基本語言功能甚至更高級(jí)的生成和理解任務(wù)的通用內(nèi)部表示。

訓(xùn)練

研究人員按照標(biāo)準(zhǔn)的自回歸序列建模方法對(duì)Stable LM 2進(jìn)行訓(xùn)練，以預(yù)測(cè)下一個(gè)token。

他們從零開始訓(xùn)練模型，上下文長(zhǎng)度為4096，受益于FlashAttention-2的高效序列并行優(yōu)化。

訓(xùn)練以BFloat16混合精度進(jìn)行，同時(shí)將all-reduce操作保持在FP32中。

數(shù)據(jù)

模型性能受訓(xùn)練前數(shù)據(jù)設(shè)計(jì)決策的影響，包括源選擇和采樣權(quán)重。

訓(xùn)練中所用的數(shù)據(jù)均為公開數(shù)據(jù)，大部分訓(xùn)練數(shù)據(jù)由其他LLM訓(xùn)練中使用的數(shù)據(jù)源組成，其中包括德語（DE）、西班牙語（ES）、法語（FR）、意大利語（IT）、荷蘭語（NL）和葡萄牙語（PT）的多語言數(shù)據(jù)。