成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="icsqc"><pre id="icsqc"></pre></abbr>

<tfoot id="icsqc"><tbody id="icsqc"></tbody></tfoot><tfoot id="icsqc"><delect id="icsqc"></delect></tfoot>

<input id="icsqc"></input>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

微軟LongRoPE v2：幾乎無損的上下文擴展！

發布于 2025-3-6 09:15

瀏覽

0收藏

論文筆記，LongRoPE2: Near-Lossless LLM Context Window Scaling， https://arxiv.org/pdf/2502.20082。 longrope v1的升級工作，應對長度外推的。

longrope v1簡單回顧，核心思想是非均勻插值+漸進式微調：

對比 NTK、YaRN 之類的插值方式，LongROPE 的每個頻率都有自己的縮放因子。所以先進行基于困惑度的進化搜索，得到每個 rope 維度的最佳縮放因子。
在應用當前階段的 Rescaled RoPE 后，對模型進行微調，讓模型權重適應新的上下文窗口大小和位置編碼方式。
4k -> 256k -> 2048k，上一階段微調后的模型作為下一階段的起始模型，重復這個過程。

微軟LongRoPE v2：幾乎無損的上下文擴展！-AI.x社區

v2 覺著 v1版本，忽略了對高維度位置編碼的重點訓練，傳統的困惑度，是對整個文檔的所有 token 計算平均值，這存在兩個問題：

噪音干擾: 長文檔通常包含大量不重要或低依賴的 token，這些 token 的困惑度對評估長上下文能力貢獻不大，反而會干擾對關鍵 token 的評估。
無法有效捕捉長上下文能力: 平均困惑度無法有效區分模型是否真正理解了長上下文，并提取了關鍵信息。

所以v2提出了，“針驅動” 的困惑度，更聚焦于聚焦于長文檔中需要深度上下文理解的關鍵 “針” (Needle) token，只計算這些 “針” token 的困惑度。從而更精準地評估模型的長上下文能力。

最后，為了解決 LongRoPE v1 中存在的短上下文性能下降問題，LongRoPE2 引入了混合上下文窗口訓練方法。。

短上下文窗口：用于訓練模型在原始短上下文下的性能，使用原始 RoPE 編碼，通過注意力掩碼防止跨文檔的注意力。
長上下文窗口：用于訓練模型適應 rescaled RoPE 和長上下文，使用 LongRoPE2 搜索到的最佳縮放因子。

最后LongRoPE2 是第一個能夠在擴展上下文窗口到 128k 的同時，仍然保持超過 97% 原始短上下文性能的 RoPE rescaling 方法。

且只需 10B tokens 的微調數據即可將 LLaMA3-8B 的上下文窗口擴展到 128k，而 Meta 的 LLaMA3.1 擴展到 128k 需要 800B tokens 的訓練。

微軟LongRoPE v2：幾乎無損的上下文擴展！-AI.x社區

本文轉載自??NLP前沿??，作者：NLP前沿

標簽

贊

收藏

回復

舉報

回復

相關推薦

LLM超長上下文查詢-性能評估實戰

ermulong ? 3249瀏覽 ? 0回復
直接擴展到無限長，谷歌Infini-Transformer終結上下文長度之爭

輕薄滴假象 ? 2627瀏覽 ? 0回復
無限上下文處理，2萬億token碾壓Llama 2

duhorse ? 3036瀏覽 ? 0回復
LLM上下文窗口突破200萬！無需架構變化+復雜微調，輕松擴展8倍

duhorse ? 3648瀏覽 ? 0回復
Next-Level Agents：釋放動態上下文（Dynamic Context）的巨大潛力

Baihai_IDP ? 4505瀏覽 ? 1回復
百萬上下文RAG，Agent還能這么玩

ermulong ? 3729瀏覽 ? 0回復
LLM超長上下文查詢-性能評估實戰

ermulong ? 3050瀏覽 ? 0回復
長上下文 還是 RAG？ Google:我全都要！

探索AGI ? 2517瀏覽 ? 0回復
在長上下文LLM的時代，RAG是否仍然必要？

sbf_2000 ? 2707瀏覽 ? 0回復
Jina CLIP v2：為多模態RAG設計的向量模型

kede96 ? 3910瀏覽 ? 0回復
長上下文語言模型評估體系探析

Baihai_IDP ? 2967瀏覽 ? 0回復
Claude的MCP（模型上下文協議）簡介

Halo咯咯 ? 5423瀏覽 ? 0回復
谷歌提出Titans：突破算力限制，擴展上下文

Aceryt ? 2073瀏覽 ? 0回復
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關鍵技術

amei2000go ? 5869瀏覽 ? 0回復
基于多模態大語言模型的上下文目標檢測

AIRoobt ? 2601瀏覽 ? 0回復
圖解「模型上下文協議（MCP）」：從與傳統 API 的比較入手

Baihai_IDP ? 2322瀏覽 ? 0回復
LLM 上下文管理：智能應用的核心競爭力

草臺AI ? 1607瀏覽 ? 0回復
模型上下文協議（MCP）開發實戰——構建LangChain代理客戶端

51CTO內容精選 ? 4448瀏覽 ? 0回復
駁“RAG 已死”論：上下文窗口擴展≠RAG 終結

Baihai_IDP ? 843瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

PyMuPDF過時了，這個解析神器專治PDF疑難雜癥 3天前發布
阿里開源VRAG-RL：定義下一代檢索增強生成 2025-06-16 07:56:18發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇： DeepSeek開源周，第三彈， DeepGEMM來襲！

下一篇：圖RAG統一框架來了，12種RAG方法一網打盡！

社區精華內容

目錄

主站蜘蛛池模板：色噜噜狠狠色综合中国 | 凹凸日日摸日日碰夜夜 | 亚洲欧美中文字幕 | 羞羞在线观看视频 | 免费精品久久久久久中文字幕 | 亚洲精品高清视频 | 精品一区国产 | 亚洲视频欧美视频 | 在线只有精品 | 三级视频国产 | 国产欧美一区二区三区在线看 | 91久久精品国产 | 欧美精品1区2区3区精品国产欧美一区二区 | 欧美九九九 | 91精品国产91久久久久游泳池 | 91久久精品 | 天天久久 | 天天插天天操 | www.亚洲精品| 一区二区三区小视频 | 国产精品成人av | 成人视屏在线观看 | 国产精品国产成人国产三级 | 九色国产 | 成人午夜网站 | 国产精品永久 | 亚洲欧美在线观看 | 一区二区在线视频 | 精品欧美一区免费观看α√ | 在线2区 | 日韩成人 | 久久精品视频91 | 日韩精品一区二区三区中文在线 | 99re热精品视频 | 久久久91精品国产一区二区三区 | 美女爽到呻吟久久久久 | 成人精品一区二区三区 | 日韩欧美在线不卡 | 日韩欧美1区2区 | 精品中文字幕在线观看 | 久热电影 |

<bdo id="wwows"></bdo>