突發！DeepSeek開源新版V3，再次震驚國外

Aceryt

發布于 2025-3-25 10:35

瀏覽

0收藏

昨晚，國內著名大模型平臺DeepSeek開源了V3模型的最新版本0324。

不過DeepSeek相當低調，國內的公眾號、國外的社交平臺沒有做任何宣傳，就是“悄悄”地把模型上傳到huggingface。

根據國外網友測試顯示，V3-0324最大亮點之一就是代碼能力，只需要簡單的文本提示就能快速開發各種網站、App，可以比肩目前全球最強的閉源代碼模型Claude 3.7 Sonnet思維鏈版本。

但V3-0324是開源且免費的，推理效率更快。

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

開源地址：https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

有網友表示，新版V3 在不到 60 秒的時間內解開了一道密碼謎題。Sonnet 3.7 花了大約 5 分鐘卻未能解開。

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

這就是為什么我不介意中國領先。他們有人力資源，這個巨人已經覺醒，我們將從中獲得更好的科技成果。

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

有網友分析，認為這很可能是去年年底發布的 DeepSeek V3 的一次迭代更新，就像 OpenAI 一直在更新他們的模型一樣，而沒有真正增加模型的編號（我不知道我們已經見過多少個 gpt-4 的迭代版本）。

DeepSeek V3 實際上比 R1 更適合許多創意寫作任務，因為它更快。速度很重要，因為你可以更快速地進行多次迭代。幻覺和準確性不足并不是大問題，因為人類應該編輯和批準文本。

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

DeepSeek的影響凸顯了一個重要的技術轉變。

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

還有人立刻對V3-0324進行了評測，一次性開發了一個網站寫了800多行代碼且沒有出現任何錯誤。這是免費的、開源的、超級快的。很高興看到這些開源模型如何給大公司施加壓力，促使它們以更低的成本構建更好的模型。

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

新版V3 模型僅用一個提示就完成了這個登陸頁面的編碼。這個新的 DeepSeek-V3 模型在編程能力上已經達到了和 Claude 3.7 Sonnet 相同的水平，同時還是無限制且免費的。

提示詞：用 HTML/CSS/JS 編寫一個現代化的登陸頁面，并將所有內容放到一個文件中！

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

我讓新的 DeepSeek V3 模型構建最美麗且復雜的動畫腳本。只用一個 HTML/JS 腳本！

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

該網友還補充道“我們正在與未來對話”，相當滿意V3的代碼能力。

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

V3簡單介紹

V3是一個擁有 6710 億參數的專家混合模型（Moe），其中370 億參數處于激活狀態。

在傳統的大模型中，通常會采用密集的神經網絡結構，模型需要對每一個輸入token都會被激活并參與計算，會耗費大量算力。

此外，傳統的混合專家模型中，不平衡的專家負載是一個很大難題。當負載不均衡時，會引發路由崩潰現象，這就好比交通擁堵時道路癱瘓一樣，數據在模型中的傳遞受到阻礙，導致計算效率大幅下降。

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

為了解決這個問題，常規的做法是依賴輔助損失來平衡負載。然而，這種方法存在一個弊端，那就是輔助損失一旦設置過大，就會對模型性能產生負面影響，就像為了疏通交通而設置過多限制，卻影響了整體的通行效率。

DeepSeek對V3進行了大膽創新，提出了輔助損失免費的負載均衡策略，引入“偏差項”。在模型訓練過程中，每個專家都被賦予了一個偏差項，它會被添加到相應的親和力分數上，以此來決定top-K路由。

模型會持續監測每一批訓練數據中專家的負載情況。如果某個專家負載過重，就像一座橋梁承受了過多的車輛，此時就減小其偏差項；反之，如果負載過輕，就增加偏差項。

通過這種動態調整， V3能夠在訓練過程中有效平衡專家負載，而且相比那些僅依靠純輔助損失來平衡負載的模型，它的性能得到了顯著提升。

此外，V3還采用了節點受限的路由機制，以限制通信成本。在大規模分布式訓練中，跨節點的通信開銷是一個重要的性能瓶頸。通過確保每個輸入最多只能被發送到預設數量的節點上，V3 能夠顯著減少跨節點通信的流量，從而提高訓練效率。

這種路由機制不僅減少了通信開銷，還使得模型能夠在保持高效的計算-通信重疊的同時，擴展到更多的節點和專家。

突發！DeepSeek開源新版V3，再次震驚國外-AI.x社區

根據國外開源評測平臺kcores-llm-arena對V3-0324最新測試數據顯示，其代碼能力達到了328.3分，超過了普通版的Claude 3.7 Sonnet（322.3），可以比肩334.8分的思維鏈版本。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/KNnHmEidnBm-lBfJKHPz7A??

標簽

開源

模型

數據

贊

回復

舉報

回復

相關推薦

一個眨眼間的歌曲：Suno v3 徹底革新了人工智能音樂創作

AIGC最前線 ? 3839瀏覽 ? 0回復
Transformers.js v3震撼發布：WebGPU加速、120種架構支持，開發者必備神器！

Syrupup ? 3766瀏覽 ? 0回復
DeepSeek AI發布DeepSeek-V2.5-1210：DeepSeek-V2.5的更新版本，模型性能顯著提升

Halo咯咯 ? 1.5w瀏覽 ? 0回復
DeepSeek的V3，爆火了

51CTO技術棧 ? 7385瀏覽 ? 0回復
DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術點！

海因斯DK ? 8753瀏覽 ? 0回復
一文讀懂 DeepSeek-V3 技術報告

xuxiangda ? 5118瀏覽 ? 0回復
8卡32B模型超越o1預覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式

輕薄滴假象 ? 2219瀏覽 ? 0回復
沖，DeepSeek-R1/V3推理系統架構設計被開源了！

PaperAgent ? 2352瀏覽 ? 0回復
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關鍵技術

amei2000go ? 5905瀏覽 ? 0回復
中國第二個DeepSeek，Manus發布通用AI Agent，震驚國外

Aceryt ? 2500瀏覽 ? 0回復
「DeepSeek-V3 技術解析」：多頭潛在注意力機制（MLA）

Baihai_IDP ? 2662瀏覽 ? 0回復
「DeepSeek-V3 技術解析」：DeepSeekMoE

Baihai_IDP ? 1707瀏覽 ? 0回復
從FP8到安全張量，DeepSeek?V3?0324 重塑大模型生態的秘密武器

xuxiangda ? 2343瀏覽 ? 0回復
DeepSeek V3 0324：就在剛剛，DeepSeek悄悄更新，700行代碼一氣呵成！

Halo咯咯 ? 2789瀏覽 ? 0回復
DeepSeek-V3：小版本升級，大能力進階

穿越時空111 ? 1632瀏覽 ? 0回復
「DeepSeek-V3 技術解析」：無輔助損失函數的負載均衡

Baihai_IDP ? 1530瀏覽 ? 0回復
Llama 4開源王者歸來！推理、編碼打平DeepSeek V3但參數減一半，一張H100就能跑，還有巨獸2萬億參數模型！

51CTO技術棧 ? 1691瀏覽 ? 0回復
一手實測DeepSeek-V3-0324，AI編程大躍進

沃垠AI ? 2640瀏覽 ? 0回復
「DeepSeek-V3 技術解析」：DeepSeek-V3-Base 預訓練階段解析

Baihai_IDP ? 1676瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

突發！DeepSeek開源新版V3，再次震驚國外

目錄