成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer 原創(chuàng)

發(fā)布于 2025-7-15 08:30
瀏覽
0收藏

盡管近年來語言模型取得了驚人進(jìn)展,這一進(jìn)步主要源于從面向特定任務(wù)的專用模型轉(zhuǎn)向基于強(qiáng)大架構(gòu)(如 Transformer)的通用模型——這些模型能從原始數(shù)據(jù)中直接學(xué)習(xí)一切。然而,諸如分詞(tokenization)之類的預(yù)處理步驟仍是構(gòu)建真正端到端基礎(chǔ)模型的障礙。

Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer-AI.x社區(qū)

「Mamba」作者之一的Albert Gu最新Paper又提出一系列新技術(shù),實(shí)現(xiàn)了一種動態(tài)分塊機(jī)制(dynamic chunking):它能自動學(xué)習(xí)內(nèi)容與上下文相關(guān)的切分策略,并與模型的其余部分聯(lián)合訓(xùn)練。將該機(jī)制嵌入顯式的層級網(wǎng)絡(luò)(hierarchical network:H-Net),即可用一個(gè)完全端到端訓(xùn)練的模型替代“分詞→語言模型→反分詞”的傳統(tǒng)流水線。

Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer-AI.x社區(qū)

  • (左)兩級分層結(jié)構(gòu)(S = 2)的 H-Net 整體架構(gòu)概覽。(右)動態(tài)分塊(DC)示意圖。
  • (右下)chunking層關(guān)鍵組件:

(a) 路由模塊——?jiǎng)討B(tài)決定分塊邊界;

(b) 下采樣器——依據(jù)邊界指示符保留關(guān)鍵向量,縮短序列長度并保留語義重要位置。

  • (右上)dechunking層關(guān)鍵組件:

(c) 平滑模塊——將離散塊插值為連續(xù)表示;(d) 上采樣器——依據(jù)邊界指示符將壓縮向量恢復(fù)至原始分辨率。

H-Net 所劃邊界的可視化。(a) 單階段 H-Net 主要在“類空格”字節(jié)處劃邊界,與 SpaceByte 非常相似。(b) 兩階段 H-Net 的第一階段同樣聚焦于類空格字節(jié)和每個(gè)單詞的首字符;第二階段則將文本劃分為更有意義的單元,如單詞或編號(例如 ‘(ii)’)。還觀察到,它常將多個(gè)語義相關(guān)的單詞合并為一個(gè)塊,例如 ‘the backbone’ 和 ‘such as’。

Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer-AI.x社區(qū)

在算力與數(shù)據(jù)規(guī)模相匹配的條件下,僅在byte level運(yùn)行的單級 H-Net 就能超越基于 BPE token 的強(qiáng) Transformer 語言模型;將層級擴(kuò)展為多級后,模型通過抽象層級的疊加進(jìn)一步提效,數(shù)據(jù)擴(kuò)展性顯著優(yōu)于傳統(tǒng)模型,性能可與兩倍參數(shù)量的 token 級 Transformer 相媲美。

Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer-AI.x社區(qū)

具體實(shí)驗(yàn)結(jié)果:

英文(FineWeb-Edu)

兩階段 H-Net 僅用 30B bytes 訓(xùn)練即超越 BPE Transformer(1.3B 參數(shù))。

中文

在 XWinograd-zh 上準(zhǔn)確率從 59.9 → 66.3,顯著優(yōu)于 BPE Transformer。

代碼

壓縮率更高,BPB 更低,表現(xiàn)優(yōu)于 BPE Transformer。

DNA 序列

數(shù)據(jù)效率提升 3.6×,優(yōu)于傳統(tǒng) isotropic 模型。

Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer-AI.x社區(qū)

Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer-AI.x社區(qū)

Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer-AI.x社區(qū)

Tokenization謝幕?H-Net登場:Mamba作者新作正面硬剛Transformer-AI.x社區(qū)

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
https://arxiv.org/pdf/2507.07955
https://goombalab.github.io/blog/2025/hnet-past/


本文轉(zhuǎn)載自?????????PaperAgent??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美在线一区二区三区四区 | 欧美在线一区二区三区 | 羞羞视频在线观看网站 | 中文字幕 国产 | 中文字幕日韩一区 | 国产色视频网站 | 神马影院一区二区三区 | 亚洲国产精品自拍 | 亚洲成人精品影院 | 高清人人天天夜夜曰狠狠狠狠 | 午夜视频在线播放 | 日产精品久久久一区二区福利 | 国产激情福利 | 日本a网站 | 国产视频精品视频 | 亚洲av一级毛片 | 伊人在线| 国产一区二区三区欧美 | 国产成人啪免费观看软件 | 日韩精品在线观看视频 | 国产高清视频一区 | 国产激情免费视频 | 欧美日日 | 久久久毛片 | 97国产精品 | 亚洲精品在线观看网站 | 精品视频在线观看 | 九九亚洲| 亚洲91av | 久久久久中文字幕 | 国产免费播放视频 | 亚洲国产成人精品在线 | 中文精品视频 | 天天操夜夜骑 | 欧美日韩在线一区二区 | 欧美日韩黄 | 国产精品无码专区在线观看 | 国产 亚洲 网红 主播 | 欧美日韩一区在线 | 成人久久久久 | 一区二区三区四区在线视频 |