成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

魔改RNN挑戰(zhàn)Transformer,RWKV上新:推出兩種新架構(gòu)模型

人工智能 新聞
新架構(gòu)的設(shè)計進(jìn)步包括多頭矩陣值狀態(tài)(multi-headed matrix-valued states)和動態(tài)遞歸機(jī)制(dynamic recurrence mechanism),這些改進(jìn)提高了RWKV模型的表達(dá)能力,同時保持RNN的推理效率特征。

不走Transformer尋常路,魔改RNN的國產(chǎn)新架構(gòu)RWKV,有了新進(jìn)展:

提出了兩種新的RWKV架構(gòu),即Eagle (RWKV-5) 和Finch(RWKV-6)。

這兩種序列模型以RWKV-4架構(gòu)為基礎(chǔ),然后作了改進(jìn)。

新架構(gòu)的設(shè)計進(jìn)步包括多頭矩陣值狀態(tài)(multi-headed matrix-valued states)動態(tài)遞歸機(jī)制(dynamic recurrence mechanism),這些改進(jìn)提高了RWKV模型的表達(dá)能力,同時保持RNN的推理效率特征。

同時,新架構(gòu)引入了一個新的多語言語料庫,包含1.12萬億個令牌。

團(tuán)隊(duì)還基于貪婪匹配(greedy matching)開發(fā)了一種快速的分詞器,以增強(qiáng)RWKV的多語言性。

目前,4個Eagle模型和2個Finch模型,都已經(jīng)在抱抱臉上發(fā)布了~

圖片

新模型Eagle和Finch

此次更新的RWKV,共包含6個模型,分別是:

4個Eagle(RWKV-5)模型:分別為0.4B、1.5B、3B、7B參數(shù)大?。?br>2個Finch(RWKV-6)模型:分別是1.6B、3B參數(shù)大小。

圖片

Eagle通過使用多頭矩陣值狀態(tài)(而非向量值狀態(tài))、重新構(gòu)造的接受態(tài)和額外的門控機(jī)制,改進(jìn)了從RWKV-4中學(xué)習(xí)到的架構(gòu)和學(xué)習(xí)衰減進(jìn)度。

Finch則通過引入新的數(shù)據(jù)相關(guān)函數(shù),進(jìn)一步改進(jìn)架構(gòu)的表現(xiàn)能力和靈活性,用于時間混合和令牌移位模塊,包括參數(shù)化線性插值。

此外,F(xiàn)inch提出了對低秩自適應(yīng)函數(shù)的新用法,以使可訓(xùn)練的權(quán)重矩陣能夠以一種上下文相關(guān)的方式有效地增強(qiáng)學(xué)習(xí)到的數(shù)據(jù)衰減向量。

最后,RWKV新架構(gòu)引入了一種新的分詞器RWKV World Tokenizer,和一個新數(shù)據(jù)集RWKV World v2,兩者均用于提高RWKV模型在多語言和代碼數(shù)據(jù)上的性能。

其中的新分詞器RWKV World Tokenizer包含不常見語言的詞匯,并且通過基于Trie的貪婪匹配(greedy matching)進(jìn)行快速分詞。

而新數(shù)據(jù)集RWKV World v2是一個新的多語言1.12T tokens數(shù)據(jù)集,取自各種手工選擇的公開可用數(shù)據(jù)源。

其數(shù)據(jù)組成中,約70%是英語數(shù)據(jù),15%是多語言數(shù)據(jù),15%是代碼數(shù)據(jù)。

基準(zhǔn)測試結(jié)果如何?

光有架構(gòu)創(chuàng)新還不夠,關(guān)鍵要看模型的實(shí)際表現(xiàn)。

來看看新模型在各大權(quán)威評測榜單上的成績——

MQAR測試結(jié)果

MQAR (Multiple Query Associative Recall)任務(wù)是一種用于評估語言模型的任務(wù),旨在測試模型在多次查詢情況下的聯(lián)想記憶能力。

在這類任務(wù)中,模型需要通過給定的多個查詢來檢索相關(guān)的信息。

MQAR任務(wù)的目標(biāo)是衡量模型在多次查詢下檢索信息的能力,以及其對不同查詢的適應(yīng)性和準(zhǔn)確性。

下圖為RWKV-4、Eagle、 Finch和其他非Transformer架構(gòu)的MQAR任務(wù)測試結(jié)果。

圖片

可以看出,在MQAR任務(wù)的準(zhǔn)確度測試中, Finch在多種序列長度測試中的準(zhǔn)確度表現(xiàn)都非常穩(wěn)定,對比RWKV-4、RWKV-5和其他非Transformer架構(gòu)的模型有顯著的性能優(yōu)勢。

長上下文實(shí)驗(yàn)

在PG19測試集上測試了從2048 tokens開始的RWKV-4、Eagle和Finch的loss與序列位置。

(所有模型均基于上下文長度4096進(jìn)行預(yù)訓(xùn)練)

圖片

測試結(jié)果顯示, Eagle在長序列任務(wù)上比RWKV-4有了顯著的改進(jìn),而在上下文長度4096訓(xùn)練的Finch的表現(xiàn)比Eagle更好,可以良好地自動適應(yīng)到20000以上的上下文長度。

速度和顯存基準(zhǔn)測試

速度和內(nèi)存基準(zhǔn)測試中,團(tuán)隊(duì)比較了Finch、Mamba和Flash Attention的類Attention內(nèi)核的速度和顯存利用率。

圖片
圖片

可以看到,F(xiàn)inch在內(nèi)存使用方面始終優(yōu)于Mamba和Flash Attention,而內(nèi)存使用量分別比Flash Attention和Mamba少40%和17%。

多語言任務(wù)表現(xiàn)

日語

圖片

西班牙語

圖片

阿拉伯語

圖片

日語-英語

圖片

下一步工作

以上研究內(nèi)容,來自RWKV Foundation發(fā)布的最新論文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》。

論文由RWKV創(chuàng)始人Bo PENG(彭博)和RWKV開源社區(qū)成員共同完成。

共同一作彭博,畢業(yè)于香港大學(xué)物理系,編程經(jīng)驗(yàn)20+年,曾在世界最大外匯對沖基金之一Ortus Capital就職,負(fù)責(zé)高頻量化交易。

還出版過一本關(guān)于深度卷積網(wǎng)絡(luò)的書籍《深度卷積網(wǎng)絡(luò)·原理與實(shí)踐》。

他的主要關(guān)注和興趣方向在軟硬件開發(fā)方面,在此前的公開訪談中,他曾明確表示AIGC是自己的興趣所在,尤其是小說生成。

目前,彭博在Github有2.1k的followers。

但他的最主要公開身份是一家燈具公司稟臨科技的聯(lián)合創(chuàng)始人,主要是做陽光燈、吸頂燈、便攜臺燈什么的。

并且其人應(yīng)該是一個喵星人資深愛好者,Github、知乎、微信頭像,以及燈具公司的官網(wǎng)首頁、微博上,都有一只橘貓的身影。

圖片

量子位獲悉,RWKV當(dāng)前的多模態(tài)工作包含RWKV Music(音樂方向)和 VisualRWKV(圖像方向)。

接下來,RWKV的重點(diǎn)工作將放在以下幾個方向:

  • 擴(kuò)展訓(xùn)練語料庫,使其更加多樣化(這是改進(jìn)模型性能的關(guān)鍵事項(xiàng));
  • 訓(xùn)練和發(fā)布更大版本的Finch,如7B和14B參數(shù),并通過MoE降低推理和訓(xùn)練成本,進(jìn)一步擴(kuò)展其性能。
  • 對Finch的CUDA實(shí)現(xiàn)做進(jìn)一步優(yōu)化(包括算法改進(jìn)),帶來速度的提升和更大的并行化。

論文鏈接:

https://arxiv.org/pdf/2404.05892.pdf

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2011-06-15 13:07:10

JSP和JavaBea

2024-03-04 08:20:00

谷歌架構(gòu)AI

2023-05-24 09:36:43

模型架構(gòu)

2015-09-18 12:17:52

華三通信

2024-07-09 13:29:37

新架構(gòu)RNNFPS

2021-10-26 17:26:46

JVM架構(gòu)模型

2016-12-07 13:41:32

AWS混合云云功能

2025-01-26 13:20:49

谷歌AI模型Titans

2024-03-04 13:23:34

數(shù)據(jù)模型

2024-02-01 12:43:16

模型數(shù)據(jù)

2017-04-18 14:31:39

機(jī)器學(xué)習(xí)模型架構(gòu)

2013-07-02 13:35:07

虛擬化等級保護(hù)天融信

2013-05-23 16:31:14

SDDCSDNSDS

2013-05-24 09:28:15

云計算

2020-04-01 10:48:28

業(yè)務(wù)設(shè)計架構(gòu)模型CIO

2024-03-26 13:35:19

模型架構(gòu)框架

2024-09-02 10:07:52

2023-11-22 09:00:00

NLP語言模型LSTM

2025-01-16 08:20:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成年人黄色一级片 | 国产黄色小视频 | 伊人网站| 国产精品色 | 亚洲精品久久国产高清情趣图文 | 欧美日韩一二三区 | 在线看一区二区三区 | 国产精品影视在线观看 | 国产亚洲精品精品国产亚洲综合 | 一区在线视频 | 韩日在线视频 | 精品欧美一区二区三区精品久久 | 日本精品一区 | 美日韩精品| 日韩一级免费电影 | 欧美精品首页 | 日本三级视频 | 国产视频三区 | 亚洲在线视频 | 中文字幕在线观 | 成人免费黄色片 | 亚洲狠狠 | 欧美色欧美亚洲另类七区 | 中文字幕一区二区三区在线乱码 | 亚洲综合区 | 免费观看一级特黄欧美大片 | 欧美日韩亚洲一区 | 欧美一区二区三区国产 | 成人小视频在线观看 | 天天躁天天操 | 91精品国产综合久久婷婷香蕉 | 精品一区久久 | 亚洲精品乱码久久久久久久久久 | 国产精品国产三级国产aⅴ原创 | 高清视频一区 | 99久久婷婷国产亚洲终合精品 | 亚洲一区中文 | 亚洲精品国产偷自在线观看 | 欧美1区 | 亚洲一区二区在线视频 | 日本人和亚洲人zjzjhd |