成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里發布 QwenLong-L1 超長文本殺器!已開源、支持 120k 長上下文、具備“翻書回溯”能力

人工智能
近日,阿里巴巴把一套可閱讀 120 k token 超長文檔、還能“回頭修正”的訓練框架“QwenLong-L1”完整開源,給上述瓶頸了一個清晰的、可行的解決思路。

業界普遍認為AI上下文越長越好,但這存在一個核心矛盾:模型能“吞下”海量信息,卻難以真正“消化”。面對長文,它們會忘記要點、無法深入推理,這已成為一大瓶頸。

例如,AI 能記住第1頁的內容,同時理解第100頁的觀點,并將兩者聯系起來進行推理嗎? 多數情況下,答案是令人失望的。

這就像開卷考試,書太厚,你找不到答案在哪,開卷也等于零分。 研究者把這種瓶頸正式命名為“長上下文推理 RL”,強調模型必須先檢索并定位片段,再進行多步邏輯鏈生成,而不是直接“憑存貨作答”。

近日,阿里巴巴把一套可閱讀 120 k token 超長文檔、還能“回頭修正”的訓練框架“QwenLong-L1”完整開源,給上述瓶頸了一個清晰的、可行的解決思路。

《QwenLong-L1: A Framework for Long-Context Reasoning RL》論文。

GitHub地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1

論文地址:https://arxiv.org/abs/2505.17667

QwenLong-L1的解法:一套“三步走”的戰略

QwenLong-L1 并不是一個新模型,而是一套訓練已有大模型的新方法——它采用了三階段訓練流程:

第一步有監督學習(SFT)階段。模型在這一階段接受的是大量經過標注的長文本推理樣本,比如“從一份 20 頁的財報中,找出企業未來三年關鍵成本控制策略”。這一步幫助模型建立對“長內容”的基礎適應力:哪里該找信息?信息之間有什么邏輯鏈?如何根據內容生成回答?這一階段不是靠猜答案,而是靠“看例子學”。

第二步是“分級強化”——隨著文檔長度逐步增加,模型被分階段推進強化學習過程。訓練初期,輸入文檔較短;模型表現穩定后,再逐步拉長輸入。這就像教孩子寫作業,從看一頁材料回答問題,慢慢過渡到處理整本教材。“突然上難度”的方法常常訓練崩盤,而這套“課程表”式的推進方式,使得模型策略進化更可控、更穩定。

第三步是“難題反復訓練”——用最難的樣本反復優化模型的策略空間。這一步被稱為“困難感知的回顧采樣”(Difficulty-Aware Retrospective Sampling):它刻意選擇那些模型曾經做錯、但又具有代表性的難題進行強化學習,從而鼓勵模型嘗試不同思路路徑,并形成反思、回溯、驗證的能力。

更妙的是,它還引入了一套混合獎勵機制。 不同于傳統解數學題那樣“答案對就給滿分”的死板規則,QwenLong-L1同時引入了“規則裁判”和“LLM裁判”。 “規則裁判”確保答案的精確性,而“LLM裁判”則從語義上判斷模型生成的內容和標準答案是否意思相近。這給了模型更大的靈活性,尤其是在處理那些沒有唯一標準答案的開放性問題時,效果拔群。

效果如何?它學會了“自我糾錯”

阿里團隊在7個長文本問答(DocQA)基準上測試了QwenLong-L1。結果非常亮眼。 基于DeepSeek-R1-32B訓練出的QWENLONG-L1-32B模型,其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美,并且優于OpenAI的o3-mini等一眾強手。

但比分數更重要的,是模型在推理過程中展現出的“行為變化”。 論文提到,經過QwenLong-L1訓練后,模型明顯更擅長信息定位(Grounding)子目標設定(Subgoal Setting)回溯(Backtracking)驗證(Verification)

這是什么意思呢? 舉個例子,一個普通模型在分析一份冗長的財報時,可能會被無關的細節帶跑偏,或者陷入某個死胡同里出不來。 而QwenLong-L1訓練的模型,則表現出了驚人的自我反思和糾錯能力。它在推理過程中如果發現一條路走不通,會主動“回溯”,退回到上一步,排除干擾信息,然后選擇另一條路繼續探索,直至找到正確答案。

責任編輯:姜華 來源: 大數據文摘
相關推薦

2025-05-28 11:46:52

強化學習模型AI

2024-04-03 10:05:00

LLM性能基準測試

2024-03-11 13:20:00

模型AI

2025-03-17 12:55:18

2024-09-30 14:10:00

2024-01-17 13:59:00

AI開源

2024-02-06 20:39:21

2025-01-15 13:09:12

2023-10-11 13:21:12

模型數據

2025-01-15 12:27:11

2024-07-23 12:32:11

2024-09-05 08:24:09

2023-10-09 14:17:00

AI模型

2024-01-03 13:40:00

AI訓練

2017-05-11 14:00:02

Flask請求上下文應用上下文

2025-06-06 08:00:00

上下文管理器Python開發

2023-07-11 10:02:23

2024-11-20 09:36:00

2023-09-16 13:47:47

人工智能數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文视频在线 | 伊人焦久影院 | 欧美国产精品一区二区 | 国产在线一区观看 | 久久综合久色欧美综合狠狠 | 久久国产精品久久久久久 | 欧美 中文字幕 | 亚洲一区二区视频 | 欧美视频一区二区三区 | 国产综合精品一区二区三区 | 免费精品 | 免费看黄视频网站 | 亚洲国产aⅴ成人精品无吗 亚洲精品久久久一区二区三区 | 99re99| 日本免费视频在线观看 | 一级黄色录像片子 | 国产成人99久久亚洲综合精品 | 午夜寂寞影院在线观看 | 国产精品日本一区二区在线播放 | 亚洲国产高清在线观看 | 99国产精品视频免费观看一公开 | 国产精品亚洲片在线播放 | 亚洲成人国产精品 | 伊人网站 | 日韩精品在线一区 | 亚洲国产aⅴ成人精品无吗 欧美激情欧美激情在线五月 | 美国一级片在线观看 | 国产九九九| 精品无码久久久久久国产 | 久久99视频这里只有精品 | 国产成人网 | 中文字幕日韩欧美 | 亚洲国产一区二区三区四区 | av日韩高清 | 日韩精品一区二区三区中文在线 | 最近中文字幕第一页 | 久久国产精品99久久久久 | 国产一区中文字幕 | 美女网站视频免费黄 | 亚洲视频在线观看一区二区三区 | 亚洲一区二区三区在线 |