超越Claude 3.5緊追o1！DeepSeek-V3-Base開(kāi)源，編程能力暴增近31％

作者：機(jī)器之心 2024-12-26 17:13:17

DeepSeek-V3-Base 采用了 685B 參數(shù)的 MoE 架構(gòu)，包含 256 個(gè)專家，使用了 sigmoid 路由方式，每次選取前 8 個(gè)專家（topk=8）。

在 2024 年底，探索通用人工智能（AGI）本質(zhì)的 DeepSeek AI 公司開(kāi)源了最新的混合專家（MoE）語(yǔ)言模型 DeepSeek-V3-Base。不過(guò)，目前沒(méi)有放出詳細(xì)的模型卡。

HuggingFace 下載地址：https://huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main

具體來(lái)講，DeepSeek-V3-Base 采用了 685B 參數(shù)的 MoE 架構(gòu)，包含 256 個(gè)專家，使用了 sigmoid 路由方式，每次選取前 8 個(gè)專家（topk=8）。

圖源：X@arankomatsuzaki

該模型利用了大量專家，但對(duì)于任何給定的輸入，只有一小部分專家是活躍的，模型具有很高的稀疏性。

圖源：X@Rohan Paul

從一些網(wǎng)友的反饋來(lái)看，API 顯示已經(jīng)是 DeepSeek-V3 模型。

圖源：X@ruben_kostard

同樣地，聊天（chat）界面也變成了 DeepSeek-v3。

圖源：X@Micadep

那么，DeepSeek-V3-Base 性能怎么樣呢？Aider 多語(yǔ)言編程測(cè)評(píng)結(jié)果給了我們答案。

先來(lái)了解一下 Aider 多語(yǔ)言基準(zhǔn)，它要求大語(yǔ)言模型（LLM）編輯源文件來(lái)完成 225 道出自 Exercism 的編程題，覆蓋了 C++、Go、Java、JavaScript、Python 和 Rust 等諸多編程語(yǔ)言。這 225 道精心挑選的最難的編程題給 LLM 帶來(lái)了很大的編程能力挑戰(zhàn)。

該基準(zhǔn)衡量了 LLM 在流行編程語(yǔ)言中的編碼能力，以及是否有能力編寫可以集成到現(xiàn)有代碼的全新代碼。

從下表各模型比較結(jié)果來(lái)看，DeepSeek-V3-Base 僅次于 OpenAI o1-2024-12-17 (high)，一舉超越了 claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash-exp 等競(jìng)品模型以及前代 DeepSeek Chat V2.5。

其中與 V2.5（17.8％）相比，V3 編程性能暴增到了 48.4％，整整提升了近 31％。

另外，DeepSeek-V3 的 LiveBench 基準(zhǔn)測(cè)試結(jié)果也疑似流出。我們可以看到，該模型的整體、推理、編程、數(shù)學(xué)、數(shù)據(jù)分析、語(yǔ)言和 IF 評(píng)分都非常具有競(jìng)爭(zhēng)力，整體性能超越 gemini-2.0-flash-exp 和 Claude 3.5 Sonnet 等模型。