成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

魔改RNN挑戰(zhàn)Transformer，RWKV上新：推出兩種新架構(gòu)模型

作者：量子位 2024-04-15 07:50:00

人工智能新聞

新架構(gòu)的設(shè)計進(jìn)步包括多頭矩陣值狀態(tài)（multi-headed matrix-valued states）和動態(tài)遞歸機(jī)制（dynamic recurrence mechanism），這些改進(jìn)提高了RWKV模型的表達(dá)能力，同時保持RNN的推理效率特征。

不走Transformer尋常路，魔改RNN的國產(chǎn)新架構(gòu)RWKV，有了新進(jìn)展：

提出了兩種新的RWKV架構(gòu)，即Eagle (RWKV-5) 和Finch（RWKV-6)。

這兩種序列模型以RWKV-4架構(gòu)為基礎(chǔ)，然后作了改進(jìn)。

新架構(gòu)的設(shè)計進(jìn)步包括多頭矩陣值狀態(tài)（multi-headed matrix-valued states）和動態(tài)遞歸機(jī)制（dynamic recurrence mechanism），這些改進(jìn)提高了RWKV模型的表達(dá)能力，同時保持RNN的推理效率特征。

同時，新架構(gòu)引入了一個新的多語言語料庫，包含1.12萬億個令牌。

團(tuán)隊(duì)還基于貪婪匹配（greedy matching）開發(fā)了一種快速的分詞器，以增強(qiáng)RWKV的多語言性。

目前，4個Eagle模型和2個Finch模型，都已經(jīng)在抱抱臉上發(fā)布了～

新模型Eagle和Finch

此次更新的RWKV，共包含6個模型，分別是：

4個Eagle（RWKV-5）模型：分別為0.4B、1.5B、3B、7B參數(shù)大?。?br>2個Finch（RWKV-6）模型：分別是1.6B、3B參數(shù)大小。

Eagle通過使用多頭矩陣值狀態(tài)（而非向量值狀態(tài)）、重新構(gòu)造的接受態(tài)和額外的門控機(jī)制，改進(jìn)了從RWKV-4中學(xué)習(xí)到的架構(gòu)和學(xué)習(xí)衰減進(jìn)度。

Finch則通過引入新的數(shù)據(jù)相關(guān)函數(shù)，進(jìn)一步改進(jìn)架構(gòu)的表現(xiàn)能力和靈活性，用于時間混合和令牌移位模塊，包括參數(shù)化線性插值。

此外，F(xiàn)inch提出了對低秩自適應(yīng)函數(shù)的新用法，以使可訓(xùn)練的權(quán)重矩陣能夠以一種上下文相關(guān)的方式有效地增強(qiáng)學(xué)習(xí)到的數(shù)據(jù)衰減向量。

最后，RWKV新架構(gòu)引入了一種新的分詞器RWKV World Tokenizer，和一個新數(shù)據(jù)集RWKV World v2，兩者均用于提高RWKV模型在多語言和代碼數(shù)據(jù)上的性能。

其中的新分詞器RWKV World Tokenizer包含不常見語言的詞匯，并且通過基于Trie的貪婪匹配（greedy matching）進(jìn)行快速分詞。

而新數(shù)據(jù)集RWKV World v2是一個新的多語言1.12T tokens數(shù)據(jù)集，取自各種手工選擇的公開可用數(shù)據(jù)源。

其數(shù)據(jù)組成中，約70%是英語數(shù)據(jù)，15%是多語言數(shù)據(jù)，15%是代碼數(shù)據(jù)。

基準(zhǔn)測試結(jié)果如何？

光有架構(gòu)創(chuàng)新還不夠，關(guān)鍵要看模型的實(shí)際表現(xiàn)。

來看看新模型在各大權(quán)威評測榜單上的成績——

MQAR測試結(jié)果

MQAR （Multiple Query Associative Recall）任務(wù)是一種用于評估語言模型的任務(wù)，旨在測試模型在多次查詢情況下的聯(lián)想記憶能力。

在這類任務(wù)中，模型需要通過給定的多個查詢來檢索相關(guān)的信息。

MQAR任務(wù)的目標(biāo)是衡量模型在多次查詢下檢索信息的能力，以及其對不同查詢的適應(yīng)性和準(zhǔn)確性。

下圖為RWKV-4、Eagle、 Finch和其他非Transformer架構(gòu)的MQAR任務(wù)測試結(jié)果。

可以看出，在MQAR任務(wù)的準(zhǔn)確度測試中， Finch在多種序列長度測試中的準(zhǔn)確度表現(xiàn)都非常穩(wěn)定，對比RWKV-4、RWKV-5和其他非Transformer架構(gòu)的模型有顯著的性能優(yōu)勢。

長上下文實(shí)驗(yàn)

在PG19測試集上測試了從2048 tokens開始的RWKV-4、Eagle和Finch的loss與序列位置。

（所有模型均基于上下文長度4096進(jìn)行預(yù)訓(xùn)練）。

測試結(jié)果顯示， Eagle在長序列任務(wù)上比RWKV-4有了顯著的改進(jìn)，而在上下文長度4096訓(xùn)練的Finch的表現(xiàn)比Eagle更好，可以良好地自動適應(yīng)到20000以上的上下文長度。

速度和顯存基準(zhǔn)測試

速度和內(nèi)存基準(zhǔn)測試中，團(tuán)隊(duì)比較了Finch、Mamba和Flash Attention的類Attention內(nèi)核的速度和顯存利用率。

可以看到，F(xiàn)inch在內(nèi)存使用方面始終優(yōu)于Mamba和Flash Attention，而內(nèi)存使用量分別比Flash Attention和Mamba少40%和17%。

多語言任務(wù)表現(xiàn)

日語

西班牙語

阿拉伯語

日語-英語

下一步工作

以上研究內(nèi)容，來自RWKV Foundation發(fā)布的最新論文《Eagle and Finch：RWKV with Matrix-Valued States and Dynamic Recurrence》。

論文由RWKV創(chuàng)始人Bo PENG（彭博）和RWKV開源社區(qū)成員共同完成。

共同一作彭博，畢業(yè)于香港大學(xué)物理系，編程經(jīng)驗(yàn)20+年，曾在世界最大外匯對沖基金之一Ortus Capital就職，負(fù)責(zé)高頻量化交易。

還出版過一本關(guān)于深度卷積網(wǎng)絡(luò)的書籍《深度卷積網(wǎng)絡(luò)·原理與實(shí)踐》。

他的主要關(guān)注和興趣方向在軟硬件開發(fā)方面，在此前的公開訪談中，他曾明確表示AIGC是自己的興趣所在，尤其是小說生成。

目前，彭博在Github有2.1k的followers。

但他的最主要公開身份是一家燈具公司稟臨科技的聯(lián)合創(chuàng)始人，主要是做陽光燈、吸頂燈、便攜臺燈什么的。

并且其人應(yīng)該是一個喵星人資深愛好者，Github、知乎、微信頭像，以及燈具公司的官網(wǎng)首頁、微博上，都有一只橘貓的身影。

量子位獲悉，RWKV當(dāng)前的多模態(tài)工作包含RWKV Music（音樂方向）和 VisualRWKV（圖像方向）。

接下來，RWKV的重點(diǎn)工作將放在以下幾個方向：

擴(kuò)展訓(xùn)練語料庫，使其更加多樣化（這是改進(jìn)模型性能的關(guān)鍵事項(xiàng)）；
訓(xùn)練和發(fā)布更大版本的Finch，如7B和14B參數(shù)，并通過MoE降低推理和訓(xùn)練成本，進(jìn)一步擴(kuò)展其性能。
對Finch的CUDA實(shí)現(xiàn)做進(jìn)一步優(yōu)化（包括算法改進(jìn)），帶來速度的提升和更大的并行化。

論文鏈接：

https://arxiv.org/pdf/2404.05892.pdf

責(zé)任編輯：張燕妮來源：量子位

AI 架構(gòu)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：成年人黄色一级片 | 国产黄色小视频 | 伊人网站| 国产精品色 | 亚洲精品久久国产高清情趣图文 | 欧美日韩一二三区 | 在线看一区二区三区 | 国产精品影视在线观看 | 国产亚洲精品精品国产亚洲综合 | 一区在线视频 | 韩日在线视频 | 精品欧美一区二区三区精品久久 | 日本精品一区 | 美日韩精品| 日韩一级免费电影 | 欧美精品首页 | 日本三级视频 | 国产视频三区 | 亚洲在线视频 | 中文字幕在线观 | 成人免费黄色片 | 亚洲狠狠 | 欧美色欧美亚洲另类七区 | 中文字幕一区二区三区在线乱码 | 亚洲综合区 | 免费观看一级特黄欧美大片 | 欧美日韩亚洲一区 | 欧美一区二区三区国产 | 成人小视频在线观看 | 天天躁天天操 | 91精品国产综合久久婷婷香蕉 | 精品一区久久 | 亚洲精品乱码久久久久久久久久 | 国产精品国产三级国产aⅴ原创 | 高清视频一区 | 99久久婷婷国产亚洲终合精品 | 亚洲一区中文 | 亚洲精品国产偷自在线观看 | 欧美1区 | 亚洲一区二区在线视频 | 日本人和亚洲人zjzjhd |