阿里發布 QwenLong-L1 超長文本殺器！已開源、支持 120k 長上下文、具備“翻書回溯”能力

2025-06-03 00:00:09

人工智能

近日，阿里巴巴把一套可閱讀 120 k token 超長文檔、還能“回頭修正”的訓練框架“QwenLong-L1”完整開源，給上述瓶頸了一個清晰的、可行的解決思路。

業界普遍認為AI上下文越長越好，但這存在一個核心矛盾：模型能“吞下”海量信息，卻難以真正“消化”。面對長文，它們會忘記要點、無法深入推理，這已成為一大瓶頸。

例如，AI 能記住第1頁的內容，同時理解第100頁的觀點，并將兩者聯系起來進行推理嗎？多數情況下，答案是令人失望的。

這就像開卷考試，書太厚，你找不到答案在哪，開卷也等于零分。研究者把這種瓶頸正式命名為“長上下文推理 RL”，強調模型必須先檢索并定位片段，再進行多步邏輯鏈生成，而不是直接“憑存貨作答”。

近日，阿里巴巴把一套可閱讀 120 k token 超長文檔、還能“回頭修正”的訓練框架“QwenLong-L1”完整開源，給上述瓶頸了一個清晰的、可行的解決思路。

《QwenLong-L1: A Framework for Long-Context Reasoning RL》論文。

GitHub地址：https://github.com/Tongyi-Zhiwen/QwenLong-L1

論文地址：https://arxiv.org/abs/2505.17667

QwenLong-L1的解法：一套“三步走”的戰略

QwenLong-L1 并不是一個新模型，而是一套訓練已有大模型的新方法——它采用了三階段訓練流程：

第一步有監督學習（SFT）階段。模型在這一階段接受的是大量經過標注的長文本推理樣本，比如“從一份 20 頁的財報中，找出企業未來三年關鍵成本控制策略”。這一步幫助模型建立對“長內容”的基礎適應力：哪里該找信息？信息之間有什么邏輯鏈？如何根據內容生成回答？這一階段不是靠猜答案，而是靠“看例子學”。

第二步是“分級強化”——隨著文檔長度逐步增加，模型被分階段推進強化學習過程。訓練初期，輸入文檔較短；模型表現穩定后，再逐步拉長輸入。這就像教孩子寫作業，從看一頁材料回答問題，慢慢過渡到處理整本教材。“突然上難度”的方法常常訓練崩盤，而這套“課程表”式的推進方式，使得模型策略進化更可控、更穩定。

第三步是“難題反復訓練”——用最難的樣本反復優化模型的策略空間。這一步被稱為“困難感知的回顧采樣”（Difficulty-Aware Retrospective Sampling）：它刻意選擇那些模型曾經做錯、但又具有代表性的難題進行強化學習，從而鼓勵模型嘗試不同思路路徑，并形成反思、回溯、驗證的能力。

更妙的是，它還引入了一套混合獎勵機制。不同于傳統解數學題那樣“答案對就給滿分”的死板規則，QwenLong-L1同時引入了“規則裁判”和“LLM裁判”。 “規則裁判”確保答案的精確性，而“LLM裁判”則從語義上判斷模型生成的內容和標準答案是否意思相近。這給了模型更大的靈活性，尤其是在處理那些沒有唯一標準答案的開放性問題時，效果拔群。

效果如何？它學會了“自我糾錯”

阿里團隊在7個長文本問答（DocQA）基準上測試了QwenLong-L1。結果非常亮眼。基于DeepSeek-R1-32B訓練出的QWENLONG-L1-32B模型，其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美，并且優于OpenAI的o3-mini等一眾強手。

但比分數更重要的，是模型在推理過程中展現出的“行為變化”。論文提到，經過QwenLong-L1訓練后，模型明顯更擅長信息定位（Grounding）、子目標設定（Subgoal Setting）、回溯（Backtracking）和驗證（Verification）。

這是什么意思呢？舉個例子，一個普通模型在分析一份冗長的財報時，可能會被無關的細節帶跑偏，或者陷入某個死胡同里出不來。而QwenLong-L1訓練的模型，則表現出了驚人的自我反思和糾錯能力。它在推理過程中如果發現一條路走不通，會主動“回溯”，退回到上一步，排除干擾信息，然后選擇另一條路繼續探索，直至找到正確答案。

責任編輯：姜華來源：大數據文摘

AI 長上下文推理 RL 大模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里發布 QwenLong-L1 超長文本殺器！已開源、支持 120k 長上下文、具備“翻書回溯”能力

QwenLong-L1的解法：一套“三步走”的戰略

效果如何？它學會了“自我糾錯”