RL縮放王炸!DeepSWE開源AI Agent登頂榜首,訓練方法、權重大公開
今天凌晨,著名大模型訓練平臺Together.ai聯合Agentica開源了創新AI Agent框架DeepSWE。
DeepSWE是基于阿里最新開源的Qwen3-32B模型之上,完全使用強化學習訓練而成。
除了權重之外,訓練方法、日志、數據集等所有內容也全部開源,以幫助開發人員深度學習和改進Agent。
開源地址:https://huggingface.co/agentica-org/DeepSWE-Preview
根據SWE-Bench-Verified測試數據顯示,DeepSWE在64k最大上下文長度和100最大環境步驟下進行評估,最終在16次運行平均的Pass@1準確率上達到了42.2%,使用混合測試時擴展(TTS)后性能進一步提升至59%,超過了所有開源Agent框架位列榜首。
DeepSWE證明了僅使用強化學習進行訓練的有效性和巨大潛力。與其他開源模型相比,DeepSWE-Preview在不依賴于更強專有教師模型的蒸餾或SFT的情況下,依然能夠取得了最好的性能。
DeepSWE的訓練基于rLLM框架,這是一個用于語言智能體后期訓練的系統。該模型在64個H100 GPU上對來自R2E-Gym訓練環境的4500個真實世界SWE任務進行了6天的訓練。
這些任務涵蓋了從解決GitHub問題到實現新代碼功能和調試等復雜場景,體現了現實世界軟件工程的多樣性和復雜性。
在訓練過程中,DeepSWE-Preview通過與環境的交互,學習如何瀏覽廣泛的代碼庫、應用有針對性的代碼編輯、運行shell命令進行構建和測試,并在解決實際拉取請求時迭代優化和驗證解決方案。
在訓練方法方面,數據集管理采用了R2E-Gym子集的4500個問題,通過過濾與SWE-Bench-Verified來自相同存儲庫的問題,確保訓練數據的純凈性。
所有問題都被映射到單個Docker鏡像中,以便于管理和執行。訓練環境圍繞R2E-Gym構建,該環境能夠可擴展地管理高質量的可執行SWE環境。狀態與動作的定義涵蓋了執行Bash命令、搜索文件、文件編輯以及完成任務提交等操作。
獎勵機制采用稀疏結果獎勵模型,即只有當LLM生成的補丁通過所有測試時才給予正獎勵,否則獎勵為零。為了應對訓練過程中出現的擴展挑戰,研究人員將Kubernetes支持集成到R2E-Gym中,實現了容器的彈性調度和自動縮放,從而能夠可靠地收集數百萬個軌跡,同時保持計算成本與負載成比例。
在強化學習算法方面,DeepSWE-Preview的訓練采用了GRPO++算法,這是對原始GRPO算法的改進版本。GRPO++整合了來自DAPO、Dr.GRPO、LOOP/RLOO等工作的見解和創新,通過高剪輯、無KL損失、無獎勵標準差、長度歸一化、留一法、緊湊過濾和無熵損失等策略,實現了更穩定和性能更高的訓練過程。
其中,緊湊過濾策略特別針對多輪代理場景,通過屏蔽達到最大上下文、最大步驟或超時的軌跡,防止訓練期間的獎勵崩潰,并鼓勵代理進行跨步驟的長形式推理。
TTS則是DeepSWE-Preview實現性能提升的關鍵策略之一。在測試階段,通過生成多個軌跡并選擇其中正確解決問題的軌跡,DeepSWE-Preview能夠顯著提高其Pass@1性能。
研究人員嘗試了多種TTS策略,包括基于執行的驗證器和無執行的驗證器,并最終采用了混合擴展策略,結合了兩種范式的優勢,從而實現了59.0%的性能,比當前最先進的開源權重模型高出12%。
此外,研究人員還發現,對于SWE相關任務,擴展輸出token的數量似乎并不有效,而滾動數量擴展則能夠帶來更顯著的性能提升。