性能提升84%-166%！L-Zero僅靠強化學習解鎖大模型探索世界的能力 | 已開源

2025-07-01 09:05:28

人工智能新聞

新研究僅通過RLVR（可驗證獎勵的強化學習），成功讓模型自主進化出通用的探索、驗證與記憶能力，讓模型學會“自學”！

大模型可以不再依賴人類調教，真正“自學成才”啦？

新研究僅通過RLVR（可驗證獎勵的強化學習），成功讓模型自主進化出通用的探索、驗證與記憶能力，讓模型學會“自學”！

當前主流的LLM Agent依然高度依賴于提示詞工程、復雜的系統編排、甚至靜態規則表，這使得它們在面對復雜任務時難以實現真正的智能行為演化。

而來自招商局獅子山人工智能實驗室的研究團隊認為，RLVR范式是智能體（Agent）通往更高通用性和自主性的重要突破口。

于是，他們從兩個關鍵層面出發構建了端到端Agent訓練pipeline——L0系統：

智能體架構層面提出了結構化智能體框架——NB-Agent，在經典”代碼即行動”（Code-as-Action）架構基礎上進行擴展，使智能體能夠操作記憶/上下文，從而獲得類人類的記憶存儲、信息總結與自我反思能力。
學習范式層面探索了一個核心問題：是否可以僅通過RLVR范式，引導智能體從零開始，學會如何規劃、搜索、驗證與記憶，最終解決復雜的多輪推理任務？

L0系統的框架、模型及訓練集已全部開源，詳細可見文末鏈接。

結構化智能體框架：Notebook Agent（NB-Agent）

△NB-Agent的“Think-Code-Observe”循環

受到“代碼即行動”的啟發，NB-Agent選擇使用代碼作為通用的動作空間，并且遵循“讀取-求值-輸出”循環（Read-Eval-Print-Loop，REPL）的方式來和Jupyter Kernel交互。

每一步都是“Think-Code-Observe”：

Think：模型生成推理邏輯；
Code：將推理轉化為Python代碼；
Observe：執行代碼并觀察輸出結果，反饋進入下一輪思考。

在這個過程中，長文本處理是智能體驅動模型（Agentic model）面臨的核心挑戰。

為此，研究團隊提出一個創新方案：將模型的上下文窗口（context）與一個Python運行時的變量進行雙向綁定。

這賦予了智能體主動管理自身記憶的能力，不再被動受限于上下文長度。

具體來說，研究團隊提供了一個Notepad Python類作為結構化的外部記憶模塊。智能體可以通過代碼指令，將關鍵信息、推理步驟或中間結果寫入Notepad。

這些信息會持久存在，并映射到上下文中一個穩定區域，確保在長程任務中不被遺忘。

同時，REPL的交互模式，使智能體能像程序員一樣，將復雜信息存入變量、隨時取用，從而徹底突破上下文的枷鎖。

訓練流程：端到端強化學習

△L0的multi-turn訓練過程

L0采用端到端強化學習進行智能體訓練：

重新定義動作粒度一個動作不再是一個token，而是一個完整的“思考+代碼段”；
提出Agentic Policy Gradient算法適應序列級動作定義，將策略梯度從單token級擴展到完整動作序列級；
構建多維度自動獎勵函數包括最終答案正確性、代碼執行情況、輸出結構規范性等；
分布式訓練架構采用輕量級沙箱隔離（Bubblewrap），支持高并發、低部署門檻的大規模RL訓練。

測試：L0顯著提升了模型在多個基準測試上的性能

在多個經典的開放領域問答數據集對L0系統進行測試，見證了智能體的驚人進化。

以Qwen2.5-7B這個基礎模型為例：

在L0-Scaffold（僅有架構，未經過RL訓練）下，它就像一個剛拿到Notebook的新手，在HotpotQA上得分22%。

經過L0-RL（強化學習訓練）后，它學會了如何高效搜索、驗證信息、剔除冗余步驟，最終在同一任務上得分飆升至41%（提升84%）。

在SimpleQA數據集上，L0-RL帶來的提升更加顯著：EM（精確匹配）得分從30%暴漲到80%（提升166%）。

L0在與其他工作的比較中也獲得了具有競爭力的性能，在平均表現上明顯優于Search-R1和ZeroSearch。

這表明L0框架為強化學習提供了更豐富和更具表現力的環境：其他方法訓練智能體學習何時調用單個工具（例如搜索引擎），而L0框架訓練智能體成為一個程序化的問題解決者，學習如何在結構化環境中組合動作、管理狀態和進行推理。

這意味著什么？

在真實搜索之外，模型自己“學會”的搜索、規劃和記憶行為，比直接調用API的規則式Agent更穩定、更泛化、也更強大！

它不再是生硬地調用工具，而是真正理解了怎么利用代碼和這個世界交互，展現了通往更高級通用智能的清晰路徑。

論文：https://github.com/cmriat/l0/tree/main/papers/l0.pdf

NB-Agent框架、訓練pipeline和所有訓練recipe：https://github.com/cmriat/l0

模型checkpoint：https://huggingface.co/cmriat/models

20K訓練數據集：https://huggingface.co/cmriat/datasets

用checkpoint執行深度搜索任務的示例：https://github.com/cmriat/l0/blob/main/examples/nb_agent/deep_searcher_case.md

責任編輯：張燕妮來源：量子位

AI 模型強化學習

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

性能提升84%-166%！L-Zero僅靠強化學習解鎖大模型探索世界的能力 | 已開源

結構化智能體框架：Notebook Agent（NB-Agent）

訓練流程：端到端強化學習

△L0的multi-turn訓練過程

測試：L0顯著提升了模型在多個基準測試上的性能