最強開源大模型易主，號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？

liutao988

發布于 2024-4-2 12:17

瀏覽

0收藏

3月27日，美國數據和人工智能公司Databricks宣布開源Mosaic Research團隊主導開發的通用混合專家（MoE）大語言模型DBRX。

DBRX的研發歷經數月，耗資約1000萬美元，共包含1320億參數，16個專家網絡，每次推理時會啟用其中的4個專家網絡和360億參數。

DBRX在語言理解、編程、數學和邏輯等方面表現卓越，不僅在性能上超過了開源大模型Llama 2、Mixtral以及馬斯克新開源的Grok-1，而且在多項評分上已經逼近GPT-4。

HyperWriteAI CEO Matt Shumer在測試后直呼：“新的開源之王降臨！”

Databricks首席神經網絡架構師、DBRX開發團隊負責人Jonathan Frankle幽默地表示：“如果我們能得到馬斯克一條‘酸’我們的推文，就證明我們真的成功了。”

Databricks聯合創始人、CEO Ali Ghodsi在X中寫到：DBRX在標準基準測試中擊敗了以前所有的開源模型，它在保持高性能的同時更加經濟。DBRX有著大約兩倍于Llama2-70B的“智慧”，但參數量只有36B左右。由于實時使用的專家參數只有36B，所以它的速度（tokens/秒）幾乎是Llama2-70B的兩倍。

簡單來說，DBRX比Llama2-70B更“聰明”、更“高效”。

最強開源大模型易主，號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？-AI.x社區

圖片來源：@Ali Ghodsi

MosaicML團隊也是AI領域最大收購案的主角。去年6月，數據和人工智能公司Databricks以折合人民幣約94億元的價格，收購了員工總數僅為62人的MosaicML公司。

今天MosaicML研究團隊的成就，足以證明Databricks的好眼光。

通過開源DBRX模型，Databricks希望突破當前生成式AI熱潮中的“保密主義”。他們的目標是推動技術創新，讓強大的AI工具被更多開發者使用。

領先的細粒度MoE大模型

Databricks在博客文章中介紹，DBRX是一個采用了細粒度（Fine-grained）混合專家（MoE）架構的基于Transformer的解碼器型大型語言模型（LLM）。

它共有132B的參數，其中36B的參數在任何給定的輸入上處于激活狀態。DBRX在12T個文本和代碼數據的tokens上進行了預訓練。與其他開源的MoE模型（如Mixtral等）相比，DBRX的特點是細粒度（Fine-grained），即它使用了更多數量“小專家”。DBRX擁有16個專家，每次選擇4個；而Mixtral和Grok-1分別擁有8個專家，每次選擇2個。這種設置提供了65倍以上可能的專家組合。

DBRX還采用了旋轉位置編碼（RoPE）、門控線性單元（GLU）和分組查詢注意力（GQA）技術，同時使用了GPT-4的分詞器。DBRX在一組精心挑選的、包含12T tokens的數據上進行了預訓練，其最大上下文長度達到了 32k tokens。

DBRX在語言理解、編程、數學和邏輯方面輕松擊敗當前頂尖的開源模型，包括Meta的Llama 2-70B、法國MixtralAI的Mixtral以及馬斯克的xAI開發的Grok-1。

Databricks還提出了一個全新的開源基準測試指標“Gauntlet”，可以通過30多種不同的先進模型基準測試。

同時，DBRX 在語言理解（MMLU）、編程（HumanEval）和數學（GSM8K）方面超越了現有的開源模型。

最強開源大模型易主，號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？-AI.x社區

DBRX在語言理解、編程和數學方面的測試結果來源：Databricks博客

綜合基準測試方面，DBRX團隊在兩個綜合基準測試上評估了DBRX Instruct等。一是Hugging Face開源LLM排行榜，評估的任務包括ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande、GSM8k的平均分。二是Databricks模型測試套件，涵蓋6個類別的30多項任務套件：世界知識、常識推理、語言理解、閱讀理解、符號問題解決和編程。

DBRX Instruct這兩個綜合基準測試上得分都是最高的。其中，在Hugging Face開源LLM排行榜中得分74.5%，第二名是Mixtral Instruct，得分72.7%。在Databricks的模型測試套件中得分66.8%，第二名依舊是Mixtral Instruct得分60.7%。

而在編程和數學方面，DBRX Instruct與其他開源模型相比，它在HumanEval和GSM8k上得分更高。DBRX 在這些基準測試上超過了Grok-1，要知道Grok-1的參數量是 DBRX的2.4倍。在HumanEval上，DBRX Instruct甚至超過了專門為編程構建的CodeLLaMA-70B Instruct，雖然DBRX Instruct最初的設計目的是通用大模型。

在衡量大語言模型性能的指標MMLU（Mean Multi-Language Understanding）上，DBRX Instruct同樣表現最好，達到了73.7%。

最強開源大模型易主，號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？-AI.x社區

DBRX與其他開源模型的測試對比來源：Databricks博客

DBRX Instruct與GPT-3.5等優秀的閉源模型相比較，同樣表現出色。

在幾乎所基準測試中，DBRX Instruct幾乎都超越了GPT-3.5。在常識推理方面，DBRX Instruct在MMLU（73.7% vs. 70.0%）、HellaSwag（89.0% vs. 85.5%）和WinoGrande（81.8% vs. 81.6%）上表現超過GPT-3.5。在編程和數學推理方面，DBRX Instruct表現尤為出色，如HumanEval（70.1% vs. 48.1%）和GSM8k（72.8% vs. 57.1%）所測量。

最強開源大模型易主，號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？-AI.x社區

DBRX與閉源模型的測試對比來源：Databricks博客

除了基準評測外，Databricks還公布了DBRX在長上下文任務以及檢索增強生成（Retrieval Augmented Generation, RAG）任務中的表現。

DBRX Instruct 訓練時使用了一個巨大的上下文窗口，能處理高達32000個token。在長上下文任務的性能評估中，它與Mixtral Instruct、GPT-3.5 Turbo和GPT-4 Turbo進行了比較。基于論文《Lost in the Middle》的KV-Pairs和擴展的HotPotQA任務HotpotQAXL，DBRX Instruct 在大多數情況下都優于GPT-3.5 Turbo，并且與Mixtral Instruct表現相近。

DBRX Instruct還擁有利用額外信息處理復雜任務的能力。在RAG任務中，DBRX Instruct 結合了從維基百科檢索的信息，在Natural Questions和HotPotQA基準測試中展現了與Mixtral Instruct和LLaMA2-70B Chat等開放模型以及GPT-3.5 Turbo相當的競爭力。

普遍而言，MoE模型在推理方面比其總參數數量所推測得更快。因為它們對每個輸入使用的參數相對較少，DBRX也不例外。DBRX的推理吞吐量比132B非MoE模型高2-3倍。

推理效率和模型質量通常是相互權衡關系：通常情況較大的模型具有更高的質量，而較小的模型則具有更高的推理效率。

MoE模型的推理速度往往比其總參數量所暗示的速度要快，因為它們對每個輸入使用的參數相對較少。與非MoE模型相比，DBRX的推理吞吐量提高了 2-3 倍，即使總參數量達到132B。

MoE架構能夠在模型質量和推理效率之間實現更好的權衡，這一點在密集模型中通常難以達到。例如，DBRX在質量上超過了LLaMA2-70B，由于其活躍參數數量僅為LLaMA2-70B的一半，DBRX的推理吞吐量最多可以提高2倍。Mixtral是另一個MoE模型改進的例子：它的體積比DBRX小，質量較低，所以推理吞吐量更高。

最強開源大模型易主，號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？-AI.x社區

DBRX的推理效率來源：Databricks博客

具有開源基因的團隊

創造這一成果是一個富有活力并具有開源精神的團隊。

上周一，在DBRX發布之前，大約十幾名Databricks工程師和高管拉了一個線上會議，共同討論他們是否已經成功構建了一個頂級的AI大模型。

此前，該團隊花費了數月時間和大約1000萬美元來訓練DBRX，但在最終測試的結果出來之前，他們并不知道這個模型有多強大。

“我們已經超越了所有！”Jonathan Frankle說出了一句讓大家興奮的話。

團隊成員們發出了歡呼聲、喝彩聲，還在ZOOM線上會議評論區發出了大量鼓掌表情符號。大家還發現，平時盡量避免攝入咖啡因的Frankle，這一刻正在啜飲冰拿鐵。

時間回到十多年前。

Databricks起源于學術界和開源社區，由Apache Spark、Delta Lake和MLflow的原始創建者于2013年創立。Databricks官網介紹，作為世界上第一個也是唯一一個云端Lakehouse平臺，Databricks結合了數據倉庫和數據湖的最佳特性，提供了一個開放且統一的數據和AI平臺。

Databricks創始團隊由七位計算機科學博士組成，他們一直致力于開發用于數據處理的Spark引擎，為了讓更多人能夠使用它，他們決定開源Spark，并將Spark商業化。

2013年9月，DataBricks獲1400萬美元投資，投資方為Andreessen Horowitz（A16Z）。

Ali Ghodsi是Databricks的聯合創始人，2016年他成為了公司的CEO，目前他負責公司的發展和國際化拓展。

除了在Databricks的工作，Ghodsi還是加州大學伯克利分校的兼職教授，并且是伯克利分校RiseLab的董事會成員。他是開源項目Apache Spark的創造者之一，其學術研究在資源管理、調度和數據緩存方面的思想已經被應用到Apache Mesos和Apache Hadoop中。Ghodsi在2003年從瑞典中部大學獲得MBA學位，2006年在瑞典皇家理工學院獲得分布式計算領域的博士學位。

除了Ali Ghodsi，目前Databricks的AI決策層成員還有：Jonathan Frankle、Naveen G. Rao和Hanlin Tang等。這三位之前都來自被Databricks收購的MosaicML。

MosaicML由Hanlin Tang和Naveen G. Rao于2021年創立，Jonathan Frankle擔任創始顧問和首席科學家，MosaicML開發的愿景是通過讓更廣泛的人群和企業更容易使用人工智能來實現人工智能民主化。

Jonathan Frankle現在成為了Databricks首席神經網絡架構師、DBRX開發團隊的負責人，他是MIT計算機科學與人工智能實驗室的博士后研究員，也是哈佛Kempner研究所的附屬教員。他的研究方向是神經網絡的學習動力學和訓練算法，旨在提高大語言模型的效率同時降低訓練成本。

Naveen G. Rao是Databricks生成式AI方向的副總裁。他曾是英特爾人工智能產品組前副總裁兼總經理，主管AI產品開發和戰略，包括推出專為加速深度學習設計的硬件和軟件優化。

作為計算機架構師和神經科學家，他在2016年隨Nervana Systems并入英特爾，此前擔任Nervana CEO，將其建設為深度學習領域的領導者。Rao曾在高通研究神經形態機器，職業生涯還包括在Kealia Inc.、CALY Networks和Sun Microsystems的工程師角色。他擁有杜克大學的學士學位和布朗大學計算神經科學博士學位，發表多篇神經計算論文，持有視頻壓縮等領域專利。

Databricks神經網絡方向的CTO Hanlin Tang，曾是MosaicML的聯合創始人、CTO。Hanlin Tang擁有哈佛大學的生物物理學博士學位，研究人類視覺循環神經網絡。他曾領導英特爾實驗室的人工智能實驗室，專注于應用深度強化學習、自然語言處理和擴展大型模型。

致力于開放人工智能研究EleutherAI執行董事Stella Biderman表示，目前幾乎沒有證據表明開放性會增加風險。開放模型有利于經濟增長，因為它們有助于初創企業和小型企業，也有助于“加速科學研究”。

Databricks希望DBRX能夠做到這兩點。Jonathan Frankle表示，除了為其他人工智能研究人員提供一個新的模型來研究和構建他們自己的模型的有用提示之外，DBRX還可能有助于更深入地理解人工智能的實際運作方式。

Databricks團隊計劃研究模型在訓練的最后一周是如何變化的，這可能會揭示出一個強大的模型是如何獲得額外能力的。“最讓我興奮的部分是我們能夠在這個規模上進行科學研究。”Jonathan Frankle說。

Databricks接下來將發文詳細介紹創建DBRX的工作過程，這種透明度甚至連Meta在發布Llama 2時也未能做到。

Allen研究所（Allen Institute for AI）的CEO Ali Farhadi表示，圍繞AI模型構建和培訓更大透明度是“必需的”。

Ali Farhadi說：“我很高興看到任何開放性的努力。”“我確實相信市場的相當一部分將轉向開源模型。”

*參考資料：《Inside the Creation of the World’s Most Powerful Open Source AI Model》，Wired

本文轉載自??鈦媒體??，作者：蘇霍伊???

標簽

大模型

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

最強開源大模型易主，號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？

領先的細粒度MoE大模型

具有開源基因的團隊

目錄