阿里發布 QwenLong-L1 超長文本殺器!已開源、支持 120k 長上下文、具備“翻書回溯”能力
業界普遍認為AI上下文越長越好,但這存在一個核心矛盾:模型能“吞下”海量信息,卻難以真正“消化”。面對長文,它們會忘記要點、無法深入推理,這已成為一大瓶頸。
例如,AI 能記住第1頁的內容,同時理解第100頁的觀點,并將兩者聯系起來進行推理嗎? 多數情況下,答案是令人失望的。
這就像開卷考試,書太厚,你找不到答案在哪,開卷也等于零分。 研究者把這種瓶頸正式命名為“長上下文推理 RL”,強調模型必須先檢索并定位片段,再進行多步邏輯鏈生成,而不是直接“憑存貨作答”。
近日,阿里巴巴把一套可閱讀 120 k token 超長文檔、還能“回頭修正”的訓練框架“QwenLong-L1”完整開源,給上述瓶頸了一個清晰的、可行的解決思路。
《QwenLong-L1: A Framework for Long-Context Reasoning RL》論文。
GitHub地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1
論文地址:https://arxiv.org/abs/2505.17667
QwenLong-L1的解法:一套“三步走”的戰略
QwenLong-L1 并不是一個新模型,而是一套訓練已有大模型的新方法——它采用了三階段訓練流程:
第一步有監督學習(SFT)階段。模型在這一階段接受的是大量經過標注的長文本推理樣本,比如“從一份 20 頁的財報中,找出企業未來三年關鍵成本控制策略”。這一步幫助模型建立對“長內容”的基礎適應力:哪里該找信息?信息之間有什么邏輯鏈?如何根據內容生成回答?這一階段不是靠猜答案,而是靠“看例子學”。
第二步是“分級強化”——隨著文檔長度逐步增加,模型被分階段推進強化學習過程。訓練初期,輸入文檔較短;模型表現穩定后,再逐步拉長輸入。這就像教孩子寫作業,從看一頁材料回答問題,慢慢過渡到處理整本教材。“突然上難度”的方法常常訓練崩盤,而這套“課程表”式的推進方式,使得模型策略進化更可控、更穩定。
第三步是“難題反復訓練”——用最難的樣本反復優化模型的策略空間。這一步被稱為“困難感知的回顧采樣”(Difficulty-Aware Retrospective Sampling):它刻意選擇那些模型曾經做錯、但又具有代表性的難題進行強化學習,從而鼓勵模型嘗試不同思路路徑,并形成反思、回溯、驗證的能力。
更妙的是,它還引入了一套混合獎勵機制。 不同于傳統解數學題那樣“答案對就給滿分”的死板規則,QwenLong-L1同時引入了“規則裁判”和“LLM裁判”。 “規則裁判”確保答案的精確性,而“LLM裁判”則從語義上判斷模型生成的內容和標準答案是否意思相近。這給了模型更大的靈活性,尤其是在處理那些沒有唯一標準答案的開放性問題時,效果拔群。
效果如何?它學會了“自我糾錯”
阿里團隊在7個長文本問答(DocQA)基準上測試了QwenLong-L1。結果非常亮眼。 基于DeepSeek-R1-32B訓練出的QWENLONG-L1-32B模型,其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美,并且優于OpenAI的o3-mini等一眾強手。
但比分數更重要的,是模型在推理過程中展現出的“行為變化”。 論文提到,經過QwenLong-L1訓練后,模型明顯更擅長信息定位(Grounding)、子目標設定(Subgoal Setting)、回溯(Backtracking)和驗證(Verification)。
這是什么意思呢? 舉個例子,一個普通模型在分析一份冗長的財報時,可能會被無關的細節帶跑偏,或者陷入某個死胡同里出不來。 而QwenLong-L1訓練的模型,則表現出了驚人的自我反思和糾錯能力。它在推理過程中如果發現一條路走不通,會主動“回溯”,退回到上一步,排除干擾信息,然后選擇另一條路繼續探索,直至找到正確答案。