成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

蘋(píng)果卷開(kāi)源大模型,公開(kāi)代碼、權(quán)重、數(shù)據(jù)集、訓(xùn)練全過(guò)程,OpenELM亮相

人工智能 開(kāi)源
蘋(píng)果發(fā)布基于開(kāi)源訓(xùn)練和推理框架的高效語(yǔ)言模型族 OpenELM。

要說(shuō) ChatGPT 拉開(kāi)了大模型競(jìng)賽的序幕,那么 Meta 開(kāi)源 Llama 系列模型則掀起了開(kāi)源領(lǐng)域的熱潮。在這當(dāng)中,蘋(píng)果似乎掀起的水花不是很大。

不過(guò),蘋(píng)果最新放出的論文,我們看到其在開(kāi)源領(lǐng)域做出的貢獻(xiàn)。

近日,蘋(píng)果發(fā)布了 OpenELM,共四種變體(參數(shù)量分別為 270M、450M、1.1B 和 3B),這是一系列基于公開(kāi)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練和微調(diào)的模型。OpenELM 的核心在于逐層縮放,即 OpenELM 中的每個(gè) Transformer 層都有不同的配置(例如,頭數(shù)和前饋網(wǎng)絡(luò)維度),導(dǎo)致模型每層的參數(shù)數(shù)量不同,從而實(shí)現(xiàn)了更有效的跨層參數(shù)分配。

值得一提的是,蘋(píng)果這次發(fā)布了完整的框架,包括數(shù)據(jù)準(zhǔn)備、訓(xùn)練、微調(diào)和評(píng)估程序,以及多個(gè)預(yù)訓(xùn)練的 checkpoint 和訓(xùn)練日志,以促進(jìn)開(kāi)源研究。

圖片

  • 論文地址:https://arxiv.org/pdf/2404.14619.pdf
  • 項(xiàng)目地址:https://github.com/apple/corenet
  • 論文標(biāo)題:OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

結(jié)果顯示,OpenELM 的性能優(yōu)于使用公開(kāi)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的現(xiàn)有開(kāi)源 LLM(表 1)。例如,具有 11 億個(gè)參數(shù)的 OpenELM 性能優(yōu)于 OLMo。

圖片

方法介紹

OpenELM 架構(gòu)

OpenELM 采用只有解碼器的 transformer 架構(gòu),并遵循以下方式:

(1)不在任何全連接(也稱(chēng)為線性)層中使用可學(xué)習(xí)的偏差參數(shù);

(2)使用 RMSNorm 進(jìn)行預(yù)標(biāo)準(zhǔn)化,旋轉(zhuǎn)位置嵌入(ROPE)用于編碼位置信息;

(3)使用分組查詢注意力(GQA)代替多頭注意力(MHA);

(4)用 SwiGLU FFN 替換前饋網(wǎng)絡(luò)(FFN);

  (5) 使用 flash 注意力來(lái)計(jì)算可縮放的點(diǎn)積注意力;

  (6) 使用與 LLama 相同的分詞器(tokenizer)。

一般來(lái)講,LLM 中每個(gè) transformer 層使用相同的配置,從而實(shí)現(xiàn)跨層參數(shù)的統(tǒng)一分配。與這些模型不同的是,OpenELM 中的每個(gè) Transformer 層都有不同的配置(例如,頭數(shù)和前饋網(wǎng)絡(luò)維度),導(dǎo)致模型每層的參數(shù)數(shù)量不同。這使得 OpenELM 能夠更好地利用可用的參數(shù)預(yù)算來(lái)實(shí)現(xiàn)更高的精度。蘋(píng)果使用逐層縮放(layer-wise scaling)來(lái)實(shí)現(xiàn)跨層參數(shù)的非均勻分配。

逐層縮放:標(biāo)準(zhǔn) Transformer 層由多頭注意力(MHA)和前饋網(wǎng)絡(luò)(FFN)組成。針對(duì) Transformer 層參數(shù)分配不均勻的問(wèn)題,蘋(píng)果對(duì)各個(gè) Transformer 層的注意力頭數(shù)和 FFN 乘法器進(jìn)行了調(diào)整。

蘋(píng)果是這樣做的。設(shè)參數(shù)分配均勻的標(biāo)準(zhǔn) Transformer 模型有 N 層 transformer,假設(shè)每層輸入的維數(shù)為 d_model。MHA 有 n_h 個(gè)頭,每個(gè)頭的維度為圖片,F(xiàn)FN 的隱藏維度為:

圖片

蘋(píng)果引入?yún)?shù) α 和 β 兩個(gè)超參數(shù)來(lái)分別縮放每層注意力頭的數(shù)量 n_h 和 m。對(duì)于第 i 層,n_h 和 m 計(jì)算為:

預(yù)訓(xùn)練數(shù)據(jù)

對(duì)于預(yù)訓(xùn)練,蘋(píng)果使用公共數(shù)據(jù)集。具體來(lái)說(shuō),他們的預(yù)訓(xùn)練數(shù)據(jù)集包含 RefinedWeb、deduplicated PILE、RedPajama 的子集和 Dolma v1.6 的子集,總計(jì)約 1.8 萬(wàn)億個(gè) token 。如下表所示。

圖片

訓(xùn)練細(xì)節(jié)

蘋(píng)果使用自家開(kāi)源的 CoreNet 庫(kù)(以前稱(chēng)為 CVNets ,專(zhuān)門(mén)用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò))訓(xùn)練 OpenELM 變體,訓(xùn)練過(guò)程迭代了 35 萬(wàn)次。最終訓(xùn)練出了 OpenELM 四種變體(參數(shù)量為 270M、450M、1.1B 和 3B)。

實(shí)驗(yàn)

本文評(píng)估了 OpenELM 在零樣本和少樣本設(shè)置下的性能,如表 3 所示。研究者將 OpenELM 與公開(kāi)的 LLM 進(jìn)行了比較,其中包括 PyThia 、Cerebras-GPT 、TinyLlama 、OpenLM 、MobiLlama  和 OLMo 。與本文工作較為相關(guān)的是 MobiLlama 和 OLMo。這些模型都是在類(lèi)似的數(shù)據(jù)集上訓(xùn)練的,具有相似或更多的預(yù)訓(xùn)練 token。

圖片

圖 1 繪制了 OpenELM 在 7 個(gè)標(biāo)準(zhǔn)零樣本任務(wù)上隨訓(xùn)練迭代次數(shù)的準(zhǔn)確率。可以發(fā)現(xiàn),在大多數(shù)任務(wù)中,隨著訓(xùn)練持續(xù)時(shí)間的延長(zhǎng),準(zhǔn)確率在總體上會(huì)有所提高。此外,通過(guò)平均最后五個(gè)檢查點(diǎn)(每 5000 次迭代收集一次)得到的檢查點(diǎn),在準(zhǔn)確率上與經(jīng)過(guò) 350k 次迭代后得到的最終檢查點(diǎn)相當(dāng),或略有提高。這種改進(jìn)很可能是由于權(quán)重平均降低了噪聲。因此,在表 4 的主要評(píng)估、表 5 的指令調(diào)優(yōu)實(shí)驗(yàn)和表 6 的參數(shù)效率調(diào)優(yōu)實(shí)驗(yàn)中,研究者使用了平均檢查點(diǎn)。

圖片

表 4 中的結(jié)果橫跨各種評(píng)估框架,突出了 OpenELM 相對(duì)于現(xiàn)有方法的有效性。表 4 中的結(jié)果跨越了不同的評(píng)估框架,凸顯了 OpenELM 相對(duì)于現(xiàn)有方法的有效性。例如,與擁有 12 億個(gè)參數(shù)的 OLMo 相比,擁有 11 億個(gè)參數(shù)的 OpenELM 變體的準(zhǔn)確率分別提高了 1.28%(表 4a)、2.36%(表 4b)和 1.72%(表 4c)。值得注意的是,OpenELM 達(dá)成了這樣的準(zhǔn)確率,但是使用的預(yù)訓(xùn)練數(shù)據(jù)比 OLMo 少的多。

圖片

如圖 5 所示,在不同的評(píng)估框架中,指令微調(diào)始終能將 OpenELM 的平均準(zhǔn)確率提高 1-2%。

圖片

參數(shù)高效微調(diào)(PEFT)結(jié)果。研究者使用常識(shí)推理的訓(xùn)練和評(píng)估設(shè)置。這個(gè)設(shè)置為不同方法提供了 8 個(gè)多項(xiàng)選擇數(shù)據(jù)集的 170k 訓(xùn)練樣本進(jìn)行 PEFT 研究,包括 LoRA 和 DoRA。研究者將 OpenELM 與這些方法整合在一起,并使用 8 個(gè) NVIDIA H100 GPU 對(duì)所生成的模型進(jìn)行了三個(gè)訓(xùn)練周期的微調(diào)。如表 6 所示,PEFT 方法可以應(yīng)用于 OpenELM。在給定的 CommonSense 推理數(shù)據(jù)集上,LoRA 和 DoRA 的平均準(zhǔn)確率相似。

圖片

表 7a 和 7b 分別展示了本項(xiàng)工作在 GPU 和 MacBook Pro 上的基準(zhǔn)測(cè)試結(jié)果。盡管 OpenELM 在相似參數(shù)數(shù)量下準(zhǔn)確度更高,但其速度比 OLMo 慢。雖然這項(xiàng)研究的主要關(guān)注點(diǎn)是可復(fù)現(xiàn)性而不是推理性能,但研究者還是進(jìn)行了全面的性能分析來(lái)判斷工作的瓶頸所在。

分析表明,OpenELM 的處理時(shí)間的相當(dāng)部分可歸因于研究者對(duì) RMSNorm 的簡(jiǎn)單實(shí)現(xiàn)(見(jiàn)表 8)。詳細(xì)來(lái)說(shuō),也就是簡(jiǎn)單的 RMSNorm 實(shí)現(xiàn)導(dǎo)致許多單獨(dú)的內(nèi)核啟動(dòng),每個(gè)都處理少量輸入,而不是像 LayerNorm 那樣啟動(dòng)單個(gè)融合內(nèi)核。通過(guò)用 Apex 的 RMSNorm 替換簡(jiǎn)單的 RMSNorm,研究者發(fā)現(xiàn) OpenELM 的吞吐量顯著提高。然而,與使用優(yōu)化 LayerNorm 的模型相比,仍有顯著的性能差距,部分原因是(1)OpenELM 有 113 層 RMSNorm,而 OLMo 有 33 層 LayerNorm;(2)Apex 的 RMSNorm 沒(méi)有為小輸入優(yōu)化。為了進(jìn)一步說(shuō)明由 RMSNorm 引起的性能下降,蘋(píng)果用 RMSNorm 替換了 OLMo 中的 LayerNorm,觀察到生成吞吐量顯著下降。在未來(lái)的工作中,研究者計(jì)劃探索優(yōu)化策略以進(jìn)一步提高 OpenELM 的推理效率。

圖片


圖片

更多詳細(xì)內(nèi)容,請(qǐng)閱讀原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-02-04 09:17:00

模型數(shù)據(jù)

2017-04-25 18:03:11

Caffe深度學(xué)習(xí)框架

2011-02-22 10:46:02

Samba配置

2024-07-22 07:10:00

小模型機(jī)器學(xué)習(xí)蘋(píng)果

2010-03-17 17:20:15

Java class線

2009-12-08 17:56:16

WCF配置

2011-04-18 15:56:10

軟件測(cè)試

2011-01-21 17:51:52

2009-04-13 12:37:18

2011-09-06 15:38:20

QT安裝

2009-06-10 16:55:42

cygwin netb安裝

2010-03-01 17:01:03

Python編程技巧

2010-03-10 13:24:45

Zend Debugg

2010-06-17 13:10:09

Linux Grub修

2012-11-06 10:19:18

Java自定義加載Java類(lèi)

2010-11-19 10:11:49

Oracle物化視圖

2011-03-11 10:39:02

YUM安裝LAMP

2019-05-14 15:27:31

MongoDB自動(dòng)備份數(shù)據(jù)庫(kù)

2010-07-21 14:51:19

telnet-serv

2010-06-12 10:03:20

Ubuntu Grub
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91一区二区三区 | 9久9久 | 欧美不卡网站 | 国产成人免费在线 | 91网站在线看 | 国产精品高清一区二区三区 | 在线看av的网址 | 日韩在线不卡视频 | 亚洲午夜精品在线观看 | 亚洲第1页 | 久久成人国产精品 | 日韩精品一 | 黄色片在线看 | 成人精品一区二区三区中文字幕 | 亚洲成人免费视频在线 | 日韩成人在线视频 | 亚洲一区二区国产 | 草久久免费视频 | 一区二区免费在线观看 | 国产精品自产拍在线观看蜜 | 亚洲午夜电影 | 精品在线一区二区 | 操人视频在线观看 | 久久精品亚洲一区 | 最新91在线 | 91免费观看 | 久久夜夜 | 欧美福利| 91久久| 日产久久 | 欧美日韩久 | 国产欧美日韩精品一区 | 色婷婷久久久久swag精品 | 91麻豆精品国产91久久久更新资源速度超快 | 国产精品不卡视频 | 中文字幕在线观看一区 | 国产一级在线 | av成人在线观看 | 精品日韩一区二区三区 | a级毛片国产 | 九色一区 |