成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開

發布于 2025-4-9 10:23
瀏覽
0收藏

今天凌晨4點,著名大模型訓練平臺Together AI和智能體平臺Agentica,聯合開源了新模型DeepCoder-14B-Preview。


該模型只有140億參數,但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型(59.5%),略低于o3-mini(60.9%)。在Codeforces、AIME2024上的評測數據同樣非常出色,幾乎與o1、o3-mini差不多。


值得一提的是,Together AI不僅開源了DeepCoder-14B模型權重,還把訓練數據集、訓練方法、訓練日志和優化方法全部公開,幫助開發者更深度的了解這個模型所有開發流程。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

開源地址:??https://huggingface.co/agentica-org/DeepCoder-14B-Preview??

github:??https://github.com/agentica-project/rllm??


DeepCoder是在Deepseek-R1-Distilled-Qwen-14B基礎之上,通過分布式強化學習(RL)進行了微調。


在開發過程中,研究人員首先構建了一個高質量訓練數據集,包含24K個可驗證的編程問題:涵蓋TACOVerified 問題、PrimeIntellect 的 SYNTHETIC-1 數據集中的驗證問題等。

為了確保數據質量,通過程序驗證、測試過濾和去重等步驟。程序化驗證,每個問題都會使用外部官方解決方案自動進行驗證。會過濾數據集,只包含官方解決方案通過所有單元測試的問題。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

測試過濾,每個問題必須至少包含5個單元測試。重復數據刪除,刪除了數據集中的重復問題,以避免污染。


在代碼強化學習訓練中,DeepCoder 使用了兩種沙盒來運行單元測試并計算獎勵。

Together Code Interpreter 是一個快速高效的環境,與RL訓練直接兼容,成本低且可擴展性強,能夠支持100多個并發沙盒和每分鐘1000多個沙盒執行。


本地代碼沙盒則是一個獨立的、受保護的 Python子進程,遵循官方 LiveCodeBench倉庫中的相同評估代碼,確保了結果與現有排行榜的一致性。


在獎勵函數設計方面,DeepCoder采用了稀疏結果獎勵模型(ORM),避免分配部分獎勵,從而防止模型通過獎勵黑客行為來獲取不準確的獎勵信號。


獎勵函數簡單而明確:如果生成的代碼通過所有采樣單元測試,則獎勵為 1;否則為 0。這種設計確保了模型能夠專注于生成高質量的代碼,而不是通過記憶測試用例來獲取獎勵。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

為了實現更穩定的訓練過程,DeepCoder的訓練采用了 GRPO+,這是對原始 GRPO 算法的改進版本。


通過消除熵損失和 KL 損失、引入過長過濾和上限裁剪等技術,GRPO+ 使得模型在訓練過程中能夠保持穩定的熵值,避免訓練崩潰,并且能夠更自然地生成較長的輸出,從而提高了模型的推理能力。


此外,DeepCoder-14B-Preview 采用了迭代上下文擴展技術,使模型能夠從較短的上下文長度開始學習,然后逐步泛化到更長的上下文。該模型的上下文窗口從 16K 擴展到 32K,最終在 64K上下文中評估時達到了60.6%的準確率。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

為了加速端到端的RL訓練,DeepCoder 團隊引入并開源了 verl-pipeline,這是 verl 的一個優化擴展。通過一次性流水線技術,DeepCoder 實現了訓練、獎勵計算和采樣的完全流水線化。


同時,獎勵計算與采樣交錯進行,減少了獎勵評估的開銷。這些優化使得訓練時間減少了 2 倍,特別是在需要運行數千個測試用例的編碼任務中,顯著提高了訓練效率。


雖然DeepCoder剛開源但評價非常高,網友表示,這相當令人驚訝。它不僅是真正意義上的開源,而且他們還對廣義信賴域策略優化算法(GRPO)進行了多項改進,并且在訓練過程中為采樣流水線增添了額外的效率提升。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

太厲害了!等不及這款模型在 Ollama 平臺上體驗了。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

圣誕節提前到來了。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

傳奇!開源就應該這樣。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

關于Together AI

Together AI成立于2022年,主打云大模型平臺支持超過200種開源AI模型,包括Llama系列、DeepSeek-R1等,并優化了高速推理和模型訓練的基礎設施。目前擁有超過3.6萬塊GB200 NVL72組成的超大GPU算力群。


此外,Together AI還提供模型微調、Agent智能自動化工作流和合成數據生成等,為大企業提供底層服務。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

前不久,Together AI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。


本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/CJLmnlCuq3Wgv308uCYrgg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日本高清视频在线播放 | 国产黄色精品在线观看 | 日韩精品一二三 | 欧州一区| 亚洲一区二区三区免费 | 亚洲一级av毛片 | 99久久婷婷国产精品综合 | 精品国产三级 | 欧美日韩高清免费 | 国产专区视频 | 午夜精品一区二区三区在线视频 | 精品在线一区 | 日韩电影在线 | 黄色在线免费网站 | 99精品久久久 | 视频在线亚洲 | 99久久久国产精品 | 日韩一区二区三区精品 | 国产一区二区在线免费 | 成人av久久 | 一区二区三区亚洲精品国 | 亚洲九九| 最新免费av网站 | 九九热这里 | 亚洲第一视频网 | 国产精品69毛片高清亚洲 | 日韩欧美在线免费观看视频 | a级片网站 | 一级黄大片 | 亚洲黄色av | 午夜国产一区 | 久草欧美视频 | 日本视频在线播放 | www成人免费 | 亚洲午夜小视频 | 色精品 | 精品三级在线观看 | 久久一| 国产精品欧美一区二区三区不卡 | www.久久影视 | 婷婷在线免费 |