成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RL縮放王炸!DeepSWE開源AI Agent登頂榜首,訓練方法、權重大公開

人工智能 新聞
DeepSWE是基于阿里最新開源的Qwen3-32B模型之上,完全使用強化學習訓練而成。

今天凌晨,著名大模型訓練平臺Together.ai聯合Agentica開源了創新AI Agent框架DeepSWE。

DeepSWE是基于阿里最新開源的Qwen3-32B模型之上,完全使用強化學習訓練而成。

除了權重之外,訓練方法、日志、數據集等所有內容也全部開源,以幫助開發人員深度學習和改進Agent。

圖片

開源地址:https://huggingface.co/agentica-org/DeepSWE-Preview

根據SWE-Bench-Verified測試數據顯示,DeepSWE在64k最大上下文長度和100最大環境步驟下進行評估,最終在16次運行平均的Pass@1準確率上達到了42.2%,使用混合測試時擴展(TTS)后性能進一步提升至59%,超過了所有開源Agent框架位列榜首。

DeepSWE證明了僅使用強化學習進行訓練的有效性和巨大潛力。與其他開源模型相比,DeepSWE-Preview在不依賴于更強專有教師模型的蒸餾或SFT的情況下,依然能夠取得了最好的性能。

圖片

DeepSWE的訓練基于rLLM框架,這是一個用于語言智能體后期訓練的系統。該模型在64個H100 GPU上對來自R2E-Gym訓練環境的4500個真實世界SWE任務進行了6天的訓練。

這些任務涵蓋了從解決GitHub問題到實現新代碼功能和調試等復雜場景,體現了現實世界軟件工程的多樣性和復雜性。

在訓練過程中,DeepSWE-Preview通過與環境的交互,學習如何瀏覽廣泛的代碼庫、應用有針對性的代碼編輯、運行shell命令進行構建和測試,并在解決實際拉取請求時迭代優化和驗證解決方案。

在訓練方法方面,數據集管理采用了R2E-Gym子集的4500個問題,通過過濾與SWE-Bench-Verified來自相同存儲庫的問題,確保訓練數據的純凈性。

所有問題都被映射到單個Docker鏡像中,以便于管理和執行。訓練環境圍繞R2E-Gym構建,該環境能夠可擴展地管理高質量的可執行SWE環境。狀態與動作的定義涵蓋了執行Bash命令、搜索文件、文件編輯以及完成任務提交等操作。

圖片

獎勵機制采用稀疏結果獎勵模型,即只有當LLM生成的補丁通過所有測試時才給予正獎勵,否則獎勵為零。為了應對訓練過程中出現的擴展挑戰,研究人員將Kubernetes支持集成到R2E-Gym中,實現了容器的彈性調度和自動縮放,從而能夠可靠地收集數百萬個軌跡,同時保持計算成本與負載成比例。

在強化學習算法方面,DeepSWE-Preview的訓練采用了GRPO++算法,這是對原始GRPO算法的改進版本。GRPO++整合了來自DAPO、Dr.GRPO、LOOP/RLOO等工作的見解和創新,通過高剪輯、無KL損失、無獎勵標準差、長度歸一化、留一法、緊湊過濾和無熵損失等策略,實現了更穩定和性能更高的訓練過程。

圖片  

其中,緊湊過濾策略特別針對多輪代理場景,通過屏蔽達到最大上下文、最大步驟或超時的軌跡,防止訓練期間的獎勵崩潰,并鼓勵代理進行跨步驟的長形式推理。

TTS則是DeepSWE-Preview實現性能提升的關鍵策略之一。在測試階段,通過生成多個軌跡并選擇其中正確解決問題的軌跡,DeepSWE-Preview能夠顯著提高其Pass@1性能。

研究人員嘗試了多種TTS策略,包括基于執行的驗證器和無執行的驗證器,并最終采用了混合擴展策略,結合了兩種范式的優勢,從而實現了59.0%的性能,比當前最先進的開源權重模型高出12%。

圖片

此外,研究人員還發現,對于SWE相關任務,擴展輸出token的數量似乎并不有效,而滾動數量擴展則能夠帶來更顯著的性能提升。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2023-05-06 08:23:36

ChatGPT自然語言技術

2009-05-06 10:45:36

谷歌服務器數據中心

2024-02-27 09:43:37

Pythonlambda函數

2016-07-19 09:52:20

云計算

2016-07-20 12:42:34

云計算

2021-12-16 11:57:40

安全服務

2024-07-15 12:23:49

2009-12-04 09:42:44

Google免費公共D

2025-05-13 08:21:18

2009-12-15 10:58:15

2024-07-08 13:11:39

2009-08-17 10:41:47

英特爾5500CPU性能對比測試

2025-05-08 09:20:15

2019-04-26 13:33:22

薪資互聯網技術人才

2024-03-29 08:56:47

2025-02-24 08:40:00

開源模型訓練

2021-09-25 13:28:59

AI 數據量子

2010-04-09 09:03:09

Web服務器

2023-11-13 08:28:50

CSVJSON數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色欧美视频 | 欧美日韩不卡在线 | 欧美综合自拍 | 伊人伊成久久人综合网站 | 精品国产91乱码一区二区三区 | 一本一道久久a久久精品蜜桃 | 在线一级片 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 成人av一区 | 精品国产一区二区国模嫣然 | 日韩av在线一区 | 女人牲交视频一级毛片 | 国产精品国产亚洲精品看不卡15 | 久久精品电影 | 日韩中文字幕在线观看 | 免费视频一区二区 | 欧美激情精品久久久久 | 国产日韩欧美精品 | 国产91久久精品一区二区 | 久久精品国产99国产精品 | 精品99久久久久久 | 黄色大片视频 | 99热激情 | 久久精品国产久精国产 | 不卡一区二区三区四区 | 中文字幕国产精品 | 久久黄色精品视频 | 日韩精品一区二区三区中文字幕 | 久久久国| 欧美综合久久 | 免费在线观看av片 | 欧美最猛黑人 | 亚洲欧美一区二区三区在线 | 成人性视频免费网站 | 久久精品小短片 | 蜜桃特黄a∨片免费观看 | 精品国产精品国产偷麻豆 | 色一情一乱一伦一区二区三区 | 视频在线一区二区 | 国产综合久久 | 欧洲亚洲一区 |