成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Bert重大創(chuàng)新，RAG突破512長度限制

發(fā)布于 2024-12-31 13:03

瀏覽

0收藏

當前RAG的檢索、召回模塊，受到了傳統(tǒng)BERT模型只支持512長度的極大限制。導致文檔切分后的chunksize，極大影響RAG的性能。

本文介紹的ModernBERT，在BERT的基礎(chǔ)上進行了重大改進，以提高下游任務(wù)的性能和效率，尤其是在更長序列長度上的表現(xiàn)。

ModernBERT在2萬億個token上進行訓練，原生支持8192序列長度，展現(xiàn)了在多樣化分類任務(wù)和單向、多向檢索任務(wù)上的卓越性能。

ModernBERT解決的問題

問題1：傳統(tǒng)Bert序列長度512的限制

ModernBERT通過增加序列長度到8192個token，顯著提高了模型處理長文本的能力。

問題2：傳統(tǒng)BERT注意力機制效率低下

為了提高模型的運行速度和內(nèi)存效率，ModernBERT引入了一系列現(xiàn)代模型優(yōu)化技術(shù)，包括交替的全局和局部注意力機制、無填充（unpadding）策略以及Flash Attention技術(shù)。

問題3：傳統(tǒng)Bert架構(gòu)陳舊

ModernBERT采用了最新的模型架構(gòu)改進，例如GeGLU激活函數(shù)、RoPE位置編碼和預標準化（pre-normalization）技術(shù)

突破性能的關(guān)鍵技術(shù)

在相同的參數(shù)數(shù)量下，具有更多窄層的模型（深而窄）與具有較少寬層的模型（淺而寬）具有不同的學習模式。
深而窄的語言模型比其較淺的對應模型具有更好的下游性能，但代價是推理速度較慢。
為了獲得更好的下游性能，ModernBERT設(shè)計的目標是盡可能深而窄。
ModernBERT的基礎(chǔ)模型和大型模型分別具有22層和28層，參數(shù)總數(shù)分別為1.49億和3.95億，在后續(xù)性能和硬件效率之間取得了平衡。
ModernBERT基礎(chǔ)模型的隱藏層大小為768，GLU擴展為2304；大型模型的隱藏層大小為1024a，GLU擴展為5248。這些比例允許跨張量核心的最佳平鋪。

transformer架構(gòu)的改進

GeGLU激活函數(shù)：替代原有的GeLU激活函數(shù)，提供更好的非線性表達能力。
RoPE位置編碼：使用旋轉(zhuǎn)位置編碼（RoPE）代替絕對位置編碼，以提高模型對序列順序的理解能力。
預標準化（pre-normalization）：在每個Transfaormer塊中使用預標準化技術(shù)，有助于穩(wěn)定訓練過程。

在嵌入層之后添加了一個層歸一化。為避免重復，去除了第一個注意力層中的第一個層歸一化。

交替注意力機制：在模型中交替使用全局和局部注意力，以平衡計算效率和性能。

全局注意力：序列中的每個token都關(guān)注其他每個token
局部注意力：token僅關(guān)注一個小滑動窗口內(nèi)的token。
在ModernBERT中，每三層使用RoPE theta為160,000的全局注意力，其余層使用具有128個token、RoPE theta為10,000的局部滑動窗口注意力。

模型訓練的改進

在2萬億個token上進行訓練，數(shù)據(jù)來源包括網(wǎng)頁文檔、代碼和科學文獻。模型采用了現(xiàn)代的BPE分詞器，并設(shè)置了50,368的詞匯量，以優(yōu)化GPU利用率。
訓練采用了Masked Language Modeling（MLM），并去除了Next-Sentence Prediction（NSP）目標，因為后者并未帶來性能上的提升。
模型使用了StableAdamW優(yōu)化器，并采用了改進的梯形學習率計劃
采用去除填充策略，去除填充token，減少計算資源的浪費

encoder-only語言模型通常使用填充符元來確保批次中統(tǒng)一的序列長度，從而浪費在語義上為空的符元上的計算資源。
去除填充通過移除填充token、將小批量中的所有序列連接成單個序列并將其作為單個批次進行處理來避免這種低效。
之前的去除填充實現(xiàn)會在不同的模型層內(nèi)部去除填充并重新填充序列，從而浪費計算資源和內(nèi)存帶寬。
使用Flash Attention的可變長度注意力和RoPE實現(xiàn)，允許在單個未填充序列上使用不規(guī)則的注意力掩碼和RoPE應用。
ModernBERT在嵌入層之前去除輸入的填充，并可以選擇性地重新填充模型輸出，這使得其性能比其他去除填充方法提高了10%到20%。

使用Flash Attention技術(shù)，提高了注意力計算的內(nèi)存和計算效率。

ModernBERT結(jié)合使用Flash Attention 3進行全局注意力層
使用Flash Attention 2進行局部注意力

利用PyTorch的torch.compile編譯功能，提高了訓練的吞吐量10%。
通過增加全局注意力層的RoPE theta值，將原生上下文長度512擴展到8192個token，并在額外的3000億個token上進行訓練，以優(yōu)化長文本處理能力。

訓練參數(shù)的配置

MLM：

a.使用30%的掩碼率，原始的15%掩碼率再次被證明是次優(yōu)的

StableAdamW優(yōu)化器：

a.StableAdamW的學習率裁剪在下游任務(wù)中優(yōu)于標準梯度裁剪，并導致更穩(wěn)定的訓練。

梯形學習率 (LR) ：

a.在預訓練期間，我們使用改進的梯形學習率 (LR) schedule，也稱為預熱-穩(wěn)定-衰減 (WSD)。

b.在短暫的LR預熱之后，梯形schedule在大部分訓練中保持LR不變，然后進行短暫的LR衰減。

c.此schedule已被證明可以匹配余弦schedule的性能。

d.并且可以對任何檢查點進行持續(xù)訓練而不會出現(xiàn)冷啟動問題。

e.使用1-sqrt的LR衰減，要優(yōu)于線性衰減和余弦衰減

f.ModernBERT-base 以8e-4的恒定LR訓練了1.7萬億個token，預熱了30億個token

g.預熱20億個token后，以5e-4的LR訓練了ModernBERT-large，訓練了9000億個符元。

h.在large的損失在5e-4下保持穩(wěn)定了幾百億個token后，將學習率回滾到5e-5，并重新訓練剩余的8000億個token。

批量大小調(diào)度：

a.批量大小調(diào)度從較小的梯度累積批量開始，隨著時間的推移逐漸增加到完整的批量大小，能加快訓練進度

b.ModernBERT-base和-large的批量大小分別在500億個token內(nèi)從768增加到4608，在100億個token內(nèi)從448增加到4928，采用不均勻的token調(diào)度，以便每個批量大小具有相同數(shù)量的更新步驟。

權(quán)重初始化和平鋪：

a.使用中心平鋪和Gopher層縮放，直接從ModernBERT-base的預訓練權(quán)重初始化ModernBERT-large

b.由于Base的權(quán)重矩陣小于Large的權(quán)重矩陣，對Base的權(quán)重進行了中心化處理，考慮了每個token嵌入和注意力頭，然后使用環(huán)繞填充其余權(quán)重。

上下文長度擴展：

a.以1024個序列長度和10,000的RoPE theta對1.7萬億個token進行訓練后，通過將全局注意力層的RoPE theta增加到160,000并將額外訓練3000億個token來擴展ModernBERT的原生上下文長度到8192個token。

b.首先，以3e-4的恒定較低學習率對8192個token的原始預訓練數(shù)據(jù)集混合體進行2500億個token的訓練

c.接下來，對更高質(zhì)量的來源進行上采樣，并在500億個token上進行具有1-sqrt學習率調(diào)度的衰減階段。

??https://github.com/AnswerDotAI/ModernBERT??

??https://arxiv.org/pdf/2412.13663??

本文轉(zhuǎn)載自??CourseAI??，作者： CourseAI

標簽

已于2024-12-31 14:27:13修改

贊

收藏

回復

舉報

回復

相關(guān)推薦

使用BERT的LLM提取摘要

51CTO內(nèi)容精選 ? 3350瀏覽 ? 0回復
騰訊AI新研究打破長文本生成模型限制，序列并行技術(shù)再突破

AI論文解讀 ? 6436瀏覽 ? 0回復
The Annotated BERT注釋加量版，讀懂代碼才算讀懂了BERT

魚蟲子 ? 2860瀏覽 ? 0回復
從零實現(xiàn)大模型-BERT微調(diào)

魚蟲子 ? 3361瀏覽 ? 0回復
【創(chuàng)新一夏學習季】熱浪升溫，創(chuàng)新一夏，釋放開發(fā)潛能

AI.x社區(qū)官方賬號 ? 52.9w瀏覽 ? 39回復
BERT如何增強NLP的性能

51CTO內(nèi)容精選 ? 2479瀏覽 ? 0回復
剛剛，OpenAI發(fā)布sCM提升50倍效率，擴散模型重大技術(shù)突破！

玄姐聊AGI ? 2338瀏覽 ? 0回復
327個樣本打破常規(guī)，這個"OpenAI o1復制之旅"有點燃 | RAG系統(tǒng)迎來重大突破！

sbf_2000 ? 2430瀏覽 ? 0回復
突破個性化圖像生成局限！MagicTailor：組件可控個性化圖像生成創(chuàng)新框架！

angel ? 3214瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 2943瀏覽 ? 0回復
谷歌發(fā)布雙思維AI Agent：像人類一樣思考，重大技術(shù)突破！

Aceryt ? 2280瀏覽 ? 0回復
突破空間限制！從2D到3D：北大等開源Lift3D，助力精準具身智能操作！

angel ? 3102瀏覽 ? 0回復
創(chuàng)新突破！字節(jié)跳動首創(chuàng)無需數(shù)據(jù)，1.58位超低量化自監(jiān)督生成

Aceryt ? 2439瀏覽 ? 0回復
突破算力限制！Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

Aceryt ? 2517瀏覽 ? 0回復
用強化學習重塑多模態(tài)AI：解讀Kimi k1.5的突破與創(chuàng)新

Halo咯咯 ? 2937瀏覽 ? 0回復
谷歌提出Titans：突破算力限制，擴展上下文

Aceryt ? 2089瀏覽 ? 0回復
中科院、百度提出新架構(gòu)：突破參數(shù)限制，實現(xiàn)高效推理

Aceryt ? 1928瀏覽 ? 0回復
揭秘AI內(nèi)部機制：AI理解的重大突破

ceesoft ? 1364瀏覽 ? 0回復
水印技術(shù)重大突破：VINE模型全面碾壓舊方法!

angel ? 2327瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Jina 第4版：多模態(tài)向量檢索，統(tǒng)一適配，挑戰(zhàn)3大任務(wù) 2天前發(fā)布
太牛了-復雜表格Cell合并、跨頁拼接，中文領(lǐng)域96%，甩MonkeyOCR 20% 2天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復

上一篇：多模態(tài)視覺層：CLIP、SigLIP誰更勝一籌

下一篇：一篇綜述：RAG復雜Query的4種優(yōu)化方案

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：欧美一区二区三区视频 | 精区3d动漫一品二品精区 | 新超碰97 | 黄色毛片网站在线观看 | 欧美中文字幕在线观看 | 欧美一区二区激情三区 | 在线观看www视频 | 午夜精品久久久久99蜜 | 日韩激情视频一区 | a国产一区二区免费入口 | 精品欧美乱码久久久久久 | 久久精品视频免费观看 | 欧美啊v在线观看 | 国产露脸对白88av | 无码一区二区三区视频 | 美女在线观看国产 | 免费视频一区二区 | 91干b| 欧美精品一区二区三区蜜臀 | 超碰在线免费 | 国外成人免费视频 | 国产精品自产av一区二区三区 | 91视频免费视频 | 99热在线免费 | 日本超碰| 中文字幕二区三区 | 精品国产乱码久久久久久蜜臀 | 精品日韩在线 | 久久精品国产免费高清 | 欧美色综合 | 国产高清在线视频 | 爱操av| 天天操精品视频 | 国产a级黄色录像 | 日韩午夜电影在线观看 | 黄色毛片一级 | 91在线最新 | 2022精品国偷自产免费观看 | 中文字幕在线观看成人 | 日韩免费一区二区 | 91视频国产一区 |