豆包大模型披露評測成績，較上一代“云雀”提升19%

2024-05-24 13:36:49

?近日，豆包大模型在火山引擎原動力大會上正式發布。以超低價格掀起大模型降價潮的同時，豆包的模型能力也引發行業關注。在火山引擎的一份產品資料中，豆包模型相比上一代模型云雀Skylark2 的64.5分提升了19%，也優于同期測試的其他國產模型。

近日，豆包大模型在火山引擎原動力大會上正式發布。以超低價格掀起大模型降價潮的同時，豆包的模型能力也引發行業關注。

在火山引擎的一份產品資料中，豆包模型團隊公布了一期內部測試結果：在 MMLU、BBH、GSM8K、HumanEval等11個業界主流的公開評測集上，Doubao-pro-4k 的總分為76.8分，相比上一代模型云雀Skylark2 的64.5分提升了19%，也優于同期測試的其他國產模型。

此次評測在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2 在內的九款國產大語言模型。除了云雀Skylark2 以外，其他模型均為各家廠商最新發布的高級版本，通過API調用進行測試。

圖：豆包模型團隊內部測試結果

評測結果顯示，在評估代碼能力的兩個評測集 HumanEval 和 MBPP 上，豆包相比上一代模型提升了50%左右；在專業知識和指令遵循的評測集上，豆包分別獲得33%和24%的性能提升，同時也是得分最高的國產模型。

此外，豆包模型在數學能力、語言理解能力，以及綜合評測集 CMMLU 和 CEval 的評測上也有不錯的表現，得分排在前三。綜合11個公開評測集上的測試成績，豆包通用模型-pro的總分為76.8分。根據OpenAI公布的測試成績，GPT-4在這些評測集上的總分為80.1分，相比國產模型仍有一定領先優勢。

據悉，豆包模型在5月15日剛剛推出，尚未加入到第三方機構測試中。預計未來一到兩個月內，很多第三方評測機構將會陸續披露該模型的評測結果。與模型同名的AI對話助手“豆包”，官方公布的月活用戶數已經達到2600萬，用戶可以自由體驗測試。

此前，智源研究院公布了覆蓋全球91個語言模型的評測報告。在偏重考察中文能力的主觀評測中，云雀Skylark2 排名第一，中文能力超過 GPT-4。

圖：智源研究院語言模型評測結果（模型為4月20日之前的版本）

責任編輯：鳶瑋來源：火山引擎

火山引擎豆包大模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

豆包大模型披露評測成績，較上一代“云雀”提升19%