成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟LongRoPE v2:幾乎無損的上下文擴展!

發布于 2025-3-6 09:15
瀏覽
0收藏

論文筆記,LongRoPE2: Near-Lossless LLM Context Window Scaling, https://arxiv.org/pdf/2502.20082。 longrope v1的升級工作,應對長度外推的。

longrope v1簡單回顧,核心思想是非均勻插值+漸進式微調:

  • 對比 NTK、YaRN 之類的插值方式,LongROPE 的每個頻率都有自己的縮放因子。所以先進行基于困惑度的進化搜索,得到每個 rope 維度的最佳縮放因子。
  • 在應用當前階段的 Rescaled RoPE 后,對模型進行 微調,讓模型權重適應新的上下文窗口大小和位置編碼方式。
  • 4k -> 256k -> 2048k,上一階段微調后的模型作為下一階段的 起始模型,重復這個過程。

微軟LongRoPE v2:幾乎無損的上下文擴展!-AI.x社區

v2 覺著 v1版本,忽略了對高維度位置編碼的重點訓練,傳統的困惑度,是對整個文檔的所有 token 計算平均值,這存在兩個問題:

  • 噪音干擾: 長文檔通常包含大量不重要或低依賴的 token,這些 token 的困惑度對評估長上下文能力貢獻不大,反而會干擾對關鍵 token 的評估。
  • 無法有效捕捉長上下文能力: 平均困惑度無法有效區分模型是否真正理解了長上下文,并提取了關鍵信息。

所以v2提出了,“針驅動” 的 困惑度,更聚焦于聚焦于長文檔中需要深度上下文理解的關鍵 “針” (Needle) token,只計算這些 “針” token 的困惑度。從而更精準地評估模型的長上下文能力。

最后,為了解決 LongRoPE v1 中存在的短上下文性能下降問題,LongRoPE2 引入了 混合上下文窗口訓練 方法。。

  • 短上下文窗口:用于訓練模型在原始短上下文下的性能,使用原始 RoPE 編碼,通過注意力掩碼防止跨文檔的注意力。
  • 長上下文窗口:用于訓練模型適應 rescaled RoPE 和長上下文,使用 LongRoPE2 搜索到的最佳縮放因子。

最后LongRoPE2 是第一個能夠 在擴展上下文窗口到 128k 的同時,仍然保持超過 97% 原始短上下文性能 的 RoPE rescaling 方法。

且只需 10B tokens 的微調數據 即可將 LLaMA3-8B 的上下文窗口擴展到 128k,而 Meta 的 LLaMA3.1 擴展到 128k 需要 800B tokens 的訓練。

微軟LongRoPE v2:幾乎無損的上下文擴展!-AI.x社區

本文轉載自??NLP前沿??,作者:NLP前沿

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 色噜噜狠狠色综合中国 | 凹凸日日摸日日碰夜夜 | 亚洲欧美中文字幕 | 羞羞在线观看视频 | 免费精品久久久久久中文字幕 | 亚洲精品高清视频 | 精品一区国产 | 亚洲视频 欧美视频 | 在线只有精品 | 三级视频国产 | 国产欧美一区二区三区在线看 | 91久久精品国产 | 欧美精品1区2区3区 精品国产欧美一区二区 | 欧美九九九 | 91精品国产91久久久久游泳池 | 91久久精品 | 天天久久 | 天天插天天操 | www.亚洲精品| 一区二区三区小视频 | 国产精品成人av | 成人视屏在线观看 | 国产精品国产成人国产三级 | 九色国产 | 成人午夜网站 | 国产精品永久 | 亚洲欧美在线观看 | 一区二区在线视频 | 精品欧美一区免费观看α√ | 在线2区 | 日韩成人 | 久久精品视频91 | 日韩精品一区二区三区中文在线 | 99re热精品视频 | 久久久91精品国产一区二区三区 | 美女爽到呻吟久久久久 | 成人精品一区二区三区 | 日韩欧美在线不卡 | 日韩欧美1区2区 | 精品中文字幕在线观看 | 久热电影 |