成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

引入N-gram改進Transformer架構(gòu),ACL匿名論文超越Primer等基準(zhǔn)

新聞
近日,一篇匿名提交給自然語言處理頂會 ACL 的論文《 N-grammer: Augmenting Transformers with latent n-grams 》中,研究者受到統(tǒng)計語言建模的啟發(fā),通過從文本序列的離散潛在表示構(gòu)建 n-gram 來增強模型,進而對 Transformer 架構(gòu)進行了一個簡單而有效的修改,稱為 N-grammer。

 [[436299]]

 Transformer 模型已成為自然語言處理任務(wù)的基礎(chǔ)模型之一,最近研究者開始把注意力轉(zhuǎn)移到對這些模型的擴展上。然而,這些大型 Transformer 語言模型的訓(xùn)練和推理成本高昂,令人望而卻步,因此我們需要更多變體來消除這些不利因素。

近日,一篇匿名提交給自然語言處理頂會 ACL 的論文《 N-grammer: Augmenting Transformers with latent n-grams 》中,研究者受到統(tǒng)計語言建模的啟發(fā),通過從文本序列的離散潛在表示構(gòu)建 n-gram 來增強模型,進而對 Transformer 架構(gòu)進行了一個簡單而有效的修改,稱為 N-grammer。

具體地,N-grammer 層通過在訓(xùn)練期間將潛在 n-gram 表示合并到模型中來提高語言模型的效率。由于 N-grammer 層僅在訓(xùn)練和推理期間涉及稀疏操作,研究者發(fā)現(xiàn)具有潛在 N-grammer 層的 Transformer 模型可以匹配更大的 Transformer,同時推理速度明顯更快。在 C4 數(shù)據(jù)集上對語言建模的 N-grammer 進行評估表明,本文提出的方法優(yōu)于 Transformer 和 Primer 等基準(zhǔn)。

引入N-gram改進Transformer架構(gòu),ACL匿名論文超越Primer等基準(zhǔn)

論文地址:https://openreview.net/pdf?id=GxjCYmQAody

N-grammer 層

在網(wǎng)絡(luò)高層次上,該研究引入了一個簡單的層,該層基于潛在 n-gram 用更多的內(nèi)存來增強 Transformer 架構(gòu)。一般來說,N-grammer 層對于任意 N-gram 來說已經(jīng)足夠了,該研究僅限于使用 bi-gram,以后將會研究高階 n-gram。這個簡單的層由以下幾個核心操作組成:

  • 給定文本的 uni-gram 嵌入序列,通過 PQ (Product Quantization)推導(dǎo)出離散潛在表示序列;
  • 推導(dǎo)潛在序列 bi-gram 表示;
  • 通過哈希到 bi-gram 詞匯表中查找可訓(xùn)練的 bi-gram 嵌入;
  • 將 bi-gram 嵌入與輸入 uni-gram 嵌入相結(jié)合。

此外,當(dāng)提到一組離散項時,該研究使用符號 [m] 表示集合{0,1,···,m−1}。

引入N-gram改進Transformer架構(gòu),ACL匿名論文超越Primer等基準(zhǔn)

序列的離散潛在表示

第一步,N-grammer 層從給定的輸入嵌入序列學(xué)習(xí) Codebook,獲得具有乘積量化(Product Quantization,PQ)(Jegou 等人,2011 年)的離散潛在表示的并行序列。輸入嵌入是一個 uni-gram 嵌入序列 x ϵ R^( l×h×d ),其中 l 是序列長度,h 是頭數(shù)量,d 是每個頭嵌入維度。該研究在 R^ k×h×d 中學(xué)習(xí)了一個 Codebook c,通過相同的步驟,該研究選取距離輸入嵌入最小的 code book ID,形成序列 x 的離散潛在表示 z ϵ[k]^l×h 的并行序列:

引入N-gram改進Transformer架構(gòu),ACL匿名論文超越Primer等基準(zhǔn)

離散潛在表示 Bi-gram ID

第二步是將離散潛在表示 z 轉(zhuǎn)換為 bi-gram ID b ϵ [k^2 ]^( l×h )。它們通過組合來自前一個位置的 uni-gram 潛在 ID z,然后在當(dāng)前位置形成潛在 bi-gram ID:

引入N-gram改進Transformer架構(gòu),ACL匿名論文超越Primer等基準(zhǔn)

其中 k 是 codebook 大小,這直接將離散潛在序列從詞匯空間[k] 映射到潛在 bi-gram 詞匯空間 [k^2 ] 。

構(gòu)建 bi-gram 表示

第三步是構(gòu)建序列 bi-gram 潛在表示 b。考慮所有的 k^2 bi-gram,并通過對每個這樣的 bi-gram 嵌入來增強模型。在實踐中,對于 uni-gram 詞匯為 32,000 的機器翻譯模型壓縮,在不犧牲質(zhì)量的情況下,需要將 187 個 token 聚類為 k = 212 個 cluster。在這種情況下,需要考慮所有的 bi-gram,涉及構(gòu)建一個包含 1600 萬行的嵌入表。由于所構(gòu)建的表仍然很大,該研究通過對每個頭使用單獨的哈希函數(shù),將潛在 bi-gram ID 映射到大小為 v 的較小的 bi-gram 詞匯表。

更準(zhǔn)確地講,該研究有一個潛在 bi-gram 嵌入表 B ϵ R^v×h×d_b,其中 v 為 bi- gram 詞匯,d_b 為 bi-gram 嵌入維度。然后將文本序列 bi-gram 嵌入構(gòu)建為:

引入N-gram改進Transformer架構(gòu),ACL匿名論文超越Primer等基準(zhǔn)

與嵌入進行結(jié)合

最后一步是將 uni-gram 嵌入 x ϵ R^(l×h×d)與潛在 bi-gram 嵌入 y∈R^(l×h×db)相結(jié)合,形成文本序列新表示。bi-gram 嵌入和 uni-gram 嵌入都是獨立的層歸一化(LN),然后沿著嵌入維度連接兩者以產(chǎn)生 w = [LN(x), LN(y)] ϵ R^l×h×(d+db) ,并將其作為輸入傳遞給 Transformer 網(wǎng)絡(luò)的其余部分。

實驗結(jié)果

該研究在 C4 數(shù)據(jù)集上將 N-grammer 模型與 Transformer 架構(gòu)(Vaswani 等人,2017 年)以及最近提出的 Primer 架構(gòu)(So 等人,2021 年)進行了比較。其中,該研究使用 Adam 優(yōu)化器,所有模型的學(xué)習(xí)率為 10^-3,而對于 n-gram 嵌入表,學(xué)習(xí)率為 10^-2。

下表 1 比較了 N-grammer、Primer 和 Transformer 模型,其中基線 Transformer 模型有 16 層和 8 個頭,模型維度為 1024。研究者在 TPU v3 上以 256 的批大小和 1024 的序列長度訓(xùn)練所有模型。研究者對 N-grammer 模型進行了消融研究,bi-gram 嵌入維度大小從 128 到 512 不等。由于添加 n-gram 嵌入增加了可訓(xùn)練參數(shù)的數(shù)量,該研究還在表 1 中訓(xùn)練了兩個大基線(Transformer-L 和 Primer-L),它們的參數(shù)順序與 N-grammer 模型相同。然而,與較大的 Transformer 模型不同,N-grammer 的訓(xùn)練和推理成本與嵌入層中的參數(shù)數(shù)量不成比例,因為它們依賴于稀疏操作。

該研究還測試了一個簡單版本的 N-grammer,研究者直接從 uni-gram 詞匯表(3.3 節(jié)中的)而不是從潛在表示中計算 n-gram(3.1 節(jié)的)。由表 1 可知,它對應(yīng)于在 clusters 列中沒有條目的 N- grammer。

引入N-gram改進Transformer架構(gòu),ACL匿名論文超越Primer等基準(zhǔn)
 
 
 

 

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2023-06-06 07:03:02

2024-07-17 16:12:22

2022-06-02 15:19:31

架構(gòu)智能強化學(xué)習(xí)

2022-04-18 15:56:49

AI模型系統(tǒng)

2024-10-29 14:10:00

AI模型

2024-03-04 13:23:34

數(shù)據(jù)模型

2020-10-05 22:00:59

深度學(xué)習(xí)編程人工智能

2021-08-17 14:47:31

架構(gòu)模型數(shù)據(jù)

2024-09-13 09:14:32

2024-01-17 12:06:52

AI論文

2024-06-11 14:53:19

2022-09-16 07:23:24

人工智能自然語言系統(tǒng)

2024-01-02 12:50:12

數(shù)據(jù)模型

2021-09-30 11:14:17

谷歌框架技術(shù)

2024-09-20 15:37:21

2023-11-28 12:49:01

AI訓(xùn)練

2009-02-03 10:29:31

系分論文軟件過程改進CMM3

2024-09-03 09:46:51

2016-07-05 11:02:19

云計算

2025-03-10 08:47:00

模型AI訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 91 在线 | 国产精品五区 | 亚洲精品中文字幕在线 | 久久久精 | 亚洲国产精品区 | 九九热免费在线观看 | 黄色一级毛片 | 成人午夜免费福利视频 | 亚洲一区二区三区在线 | 成人三级视频 | 国产良家自拍 | 一区二区成人 | 国产成人综合久久 | 日韩精品一区二区三区中文字幕 | 亚洲+变态+欧美+另类+精品 | 少妇一区在线观看 | 日本成人福利 | 九九免费在线视频 | 91国产精品 | www,黄色,com | 国产福利在线播放麻豆 | 日本羞羞影院 | 久久国产精品久久国产精品 | 亚洲有码转帖 | 中文字幕丁香5月 | 三级黄色片在线观看 | 91香蕉视频在线观看 | 成人三级视频在线观看 | 国产综合久久久 | 国产福利在线播放麻豆 | 久草免费在线视频 | 91动漫在线观看 | av在线电影网 | 国产免费视频 | 国产精品久久久久久久久久尿 | 国产欧美精品一区二区 | 日本在线免费视频 | 欧美理论| 亚洲精品一二三区 | 夜夜操天天艹 | 国产超碰人人爽人人做人人爱 |