秒殺700億Llama 2！最新國產大模型亮相，無需申請即可免費商用，背后公司來自私募巨頭

2023-12-06 12:43:10

人工智能

最好的開源大模型CodeLlama相比，DeepSeek Coder在代碼生成任務上（使用標準數據集HumanEval、MBPP和DS-1000進行評測）分別領先了9.3%、10.8%和5.9%。

國產大模型剛剛出了一位全新選手：

參數670億的DeepSeek。

它在近20個中英文的公開評測榜單上直接超越了同量級、700億的Llama 2。

并尤其以推理、數學和編碼能力為突出。

圖片

其中在數學能力上，它測了Grok剛剛參與過的匈牙利今年最新的高中數學考試題，得了65分。

圖片

對比Grok當時公布的成績：59分，以及GPT-4的68分，表現十分出色。

DeepSeek主打一個發布即開源：

共包含70億和670億兩個參數版本，每個版本均含基礎模型和指令微調模型，無需申請，即可免費商用。

同時，它已開放了全面內測，注冊一下就能玩。

圖片

Ps. DeepSeek的中文能力在GPT-3.5之上，可以使用中文進行測試。

圖片

在推特上，DeepSeek也引起了一大批技術同行的關注：

早期測試過的人表示沒毛病。

圖片

還有人贊譽DeepSeek彌補了開源LLM在數學和編碼上的短板。

圖片

那么，DeepSeek是如何訓練出來的？

與Llama架構相同

DeepSeek使用與Llama相同的架構，即自回歸Transformer解碼器架構。

其中70億參數的版本使用多頭注意力，670億參數版本使用分組查詢注意力。

預訓練在包含2萬億個中英文token的數據集（序列長度4096）和AdamW優化器上進行。

其中70億參數版本的模型的訓練batch size為2304，學習率為4.2e-4；670億參數版本的模型的batch size為4608，學習率為3.2e-4。

DeepSeek的訓練過程中特別采用了多步學習率計劃：

先從2000個預測步驟開始，然后在1.6萬億token時逐步達到最大值的31.6%，在1.8萬億token時逐步達到最大值的10%。

有網友看完表示：

這種從1.6萬億token時開啟的學習率冷卻階段有點類似于“Scaling Vision Transformers”那篇論文中的lr計劃消融操作。

這也與Llama的余弦學習率衰減（要求它們提前指定步數）完全不同，非常有趣。

圖片

下圖是作者發布的DeepSeek訓練損失曲線以及在幾個基準上的曲線圖：

圖片

數學和編碼能力突出

我們重點關注DeepSeek進行的如下三大類測試結果。

一個是今年5月才發布的2023年匈牙利高中數學考試題。

盡管DeepSeek已經在GSM8k和MATH這兩個標準基準上取得了不錯的成績：

圖片

但由于存在過度擬合這些數據集的風險，作者還是決定評估一下樣本外的數學泛化能力。

如下圖所示，位于右上角的670億參數DeepSeek最終在樣本內數學能力（縱軸GSM8K）排名第三，僅次于Claude 2和GPT-4，但在樣本外數學能力（橫軸Exam Score）排名第二，僅次于GPT-4。

圖片

第二個是考驗DeepSeek指令跟隨能力的測試。

在此，作者使用了谷歌11月15日剛剛發布的指令跟隨評測集，來評價模型的“聽話程度”。

結果是領先一眾開源模型，但59.1分的成績與GPT-4還有20分的差距。

圖片

最后是代碼能力測試。

同樣，作者在這里重點關注了樣本外能力，選擇的是LeetCode今年7月2日到11月12日的最新真題進行測試。

結果是比國內常見的大模型都要好很多，并且也遠遠超越了GPT 3.5。

圖片

背后公司是誰？

經搜索，DeepSeek背后的公司名叫深度求索。base位于北京，今年5月正式成立。

目標不止是大模型，而是AGI。

就在11月初，這家公司就發布代碼大模型DeepSeek Coder。

與之前最好的開源大模型CodeLlama相比，DeepSeek Coder在代碼生成任務上（使用標準數據集HumanEval、MBPP和DS-1000進行評測）分別領先了9.3%、10.8%和5.9%。

圖片

特別值得一提的是，深度求索其實是從知名私募巨頭幻方旗下獨立出來的一家公司。

幻方這家公司聽起來和AI“八桿子打不著”，但實際上，2019年時，幻方就發布了自研深度學習訓練平臺“螢火一號”。

據稱該項目總投資近2億元，共搭載了1100塊GPU。

后來“螢火一號”由升級為“二號”，搭載的GPU數則達到了約1萬張。

參考鏈接：
[1]https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ[2]https://twitter.com/johannes_hage/status/1730075189428494842
[3]https://twitter.com/jeremyphoward/status/1730113946345205970
[4]https://twitter.com/bindureddy/status/1730248977499762740
[5]https://zhuanlan.zhihu.com/p/636451367

責任編輯：武曉燕來源：量子位

模型開源

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

秒殺700億Llama 2！最新國產大模型亮相，無需申請即可免費商用，背后公司來自私募巨頭

與Llama架構相同

數學和編碼能力突出

背后公司是誰？