媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開

發布于 2025-4-9 10:23

瀏覽

0收藏

今天凌晨4點，著名大模型訓練平臺Together AI和智能體平臺Agentica，聯合開源了新模型DeepCoder-14B-Preview。

該模型只有140億參數，但在知名代碼測試平臺LiveCodeBench的測試分為60.6%，高于OpenAI的o1模型（59.5%），略低于o3-mini（60.9%）。在Codeforces、AIME2024上的評測數據同樣非常出色，幾乎與o1、o3-mini差不多。

值得一提的是，Together AI不僅開源了DeepCoder-14B模型權重，還把訓練數據集、訓練方法、訓練日志和優化方法全部公開，幫助開發者更深度的了解這個模型所有開發流程。

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開-AI.x社區

開源地址：??https://huggingface.co/agentica-org/DeepCoder-14B-Preview??

github：??https://github.com/agentica-project/rllm??

DeepCoder是在Deepseek-R1-Distilled-Qwen-14B基礎之上，通過分布式強化學習（RL）進行了微調。

在開發過程中，研究人員首先構建了一個高質量訓練數據集，包含24K個可驗證的編程問題：涵蓋TACOVerified 問題、PrimeIntellect 的 SYNTHETIC-1 數據集中的驗證問題等。

為了確保數據質量，通過程序驗證、測試過濾和去重等步驟。程序化驗證，每個問題都會使用外部官方解決方案自動進行驗證。會過濾數據集，只包含官方解決方案通過所有單元測試的問題。

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開-AI.x社區

測試過濾，每個問題必須至少包含5個單元測試。重復數據刪除，刪除了數據集中的重復問題，以避免污染。

在代碼強化學習訓練中，DeepCoder 使用了兩種沙盒來運行單元測試并計算獎勵。

Together Code Interpreter 是一個快速高效的環境，與RL訓練直接兼容，成本低且可擴展性強，能夠支持100多個并發沙盒和每分鐘1000多個沙盒執行。

本地代碼沙盒則是一個獨立的、受保護的 Python子進程，遵循官方 LiveCodeBench倉庫中的相同評估代碼，確保了結果與現有排行榜的一致性。

在獎勵函數設計方面，DeepCoder采用了稀疏結果獎勵模型（ORM），避免分配部分獎勵，從而防止模型通過獎勵黑客行為來獲取不準確的獎勵信號。

獎勵函數簡單而明確：如果生成的代碼通過所有采樣單元測試，則獎勵為 1；否則為 0。這種設計確保了模型能夠專注于生成高質量的代碼，而不是通過記憶測試用例來獲取獎勵。

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開-AI.x社區

為了實現更穩定的訓練過程，DeepCoder的訓練采用了 GRPO+，這是對原始 GRPO 算法的改進版本。

通過消除熵損失和 KL 損失、引入過長過濾和上限裁剪等技術，GRPO+ 使得模型在訓練過程中能夠保持穩定的熵值，避免訓練崩潰，并且能夠更自然地生成較長的輸出，從而提高了模型的推理能力。

此外，DeepCoder-14B-Preview 采用了迭代上下文擴展技術，使模型能夠從較短的上下文長度開始學習，然后逐步泛化到更長的上下文。該模型的上下文窗口從 16K 擴展到 32K，最終在 64K上下文中評估時達到了60.6%的準確率。

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開-AI.x社區

為了加速端到端的RL訓練，DeepCoder 團隊引入并開源了 verl-pipeline，這是 verl 的一個優化擴展。通過一次性流水線技術，DeepCoder 實現了訓練、獎勵計算和采樣的完全流水線化。

同時，獎勵計算與采樣交錯進行，減少了獎勵評估的開銷。這些優化使得訓練時間減少了 2 倍，特別是在需要運行數千個測試用例的編碼任務中，顯著提高了訓練效率。

雖然DeepCoder剛開源但評價非常高，網友表示，這相當令人驚訝。它不僅是真正意義上的開源，而且他們還對廣義信賴域策略優化算法（GRPO）進行了多項改進，并且在訓練過程中為采樣流水線增添了額外的效率提升。

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開-AI.x社區

太厲害了！等不及這款模型在 Ollama 平臺上體驗了。

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開-AI.x社區

圣誕節提前到來了。

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開-AI.x社區

傳奇！開源就應該這樣。

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開-AI.x社區

關于Together AI

Together AI成立于2022年，主打云大模型平臺支持超過200種開源AI模型，包括Llama系列、DeepSeek-R1等，并優化了高速推理和模型訓練的基礎設施。目前擁有超過3.6萬塊GB200 NVL72組成的超大GPU算力群。

此外，Together AI還提供模型微調、Agent智能自動化工作流和合成數據生成等，為大企業提供底層服務。

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開-AI.x社區

前不久，Together AI剛獲得3.05億美元的B輪融資，其估值也從去年的12.5億美元翻倍至33億美元。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/CJLmnlCuq3Wgv308uCYrgg??

標簽

模型

智能

贊

回復

舉報

回復

相關推薦

Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+

duhorse ? 3440瀏覽 ? 0回復
值得細讀的八個視覺大模型生成式預訓練方法

angel ? 6182瀏覽 ? 0回復
剛剛，OpenAI開源SimpleQA！輕松檢測、校準大模型能力

Aceryt ? 3553瀏覽 ? 0回復
Ai2開源OLMo 2：數據集、訓練方法、權重大放送

Aceryt ? 2439瀏覽 ? 0回復
大模型三階段訓練方法(LLaMa Factory)

一起AI技術 ? 1.4w瀏覽 ? 0回復
大模型訓練之訓練數據準備，即怎么準備高質量的訓練數據集？

AI探索時代 ? 3836瀏覽 ? 0回復
各AI大廠官方指令庫大公開！照著抄秒變AI大神！

草臺AI ? 2874瀏覽 ? 0回復
OpenAI將開源 o3-mini，或適合手機大模型

Aceryt ? 2067瀏覽 ? 0回復
DeepSeek開源DeepEP，公開大模型訓練效率暴漲秘訣！

Aceryt ? 2236瀏覽 ? 0回復
蘋果開源通用視覺模型：創新訓練方法，超1000顆星

Aceryt ? 1946瀏覽 ? 0回復
模型訓練之數據集操作——矩陣變換

AI探索時代 ? 1937瀏覽 ? 0回復
Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節

大模型自然語言處理 ? 2364瀏覽 ? 0回復
多模態大模型Ovis核心技術點、訓練方法、數據細節

大模型自然語言處理 ? 2123瀏覽 ? 0回復
Qwen-VL系列多模態大模型技術演進-模型架構、訓練方法、數據細節

大模型自然語言處理 ? 5409瀏覽 ? 0回復
Kimi-VL開源多模態大模型結構、訓練方法、訓練數據淺析

大模型自然語言處理 ? 1783瀏覽 ? 0回復
剛剛，o4-mini發布！OpenAI史上最強、最智能模型

Aceryt ? 1947瀏覽 ? 0回復
OpenAI大佬：AI上半場忙著開發新訓練方法和模型GPT-4/o1/o3，下半場呢？

PaperAgent ? 1251瀏覽 ? 0回復
Qwen3模型架構、訓練方法梳理

大模型自然語言處理 ? 2674瀏覽 ? 0回復
Qwen3 Embedding模型架構、訓練方法、數據策略

大模型自然語言處理 ? 1045瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開

關于Together AI

目錄