成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Mistral新旗艦決戰Llama 3.1！最強開源Large 2 123B，扛鼎多語言編程全能王

作者：新智元 2024-07-25 13:48:58

人工智能新聞

緊跟著Meta的重磅發布，Mistral Large 2也帶著權重一起上新了，而且參數量僅為Llama 3.1 405B的三分之一。不僅在編碼、數學和多語言等專業領域可與SOTA模型直接競爭，還支持單節點部署。

昨天正式發布的Llama 3.1模型，讓AI社區著實為之興奮。

但是仔細一想就能發現——405B的參數規模，基本是沒法讓個人開發者在本地運行了。

比如昨天剛發布，就有一位勇敢的推特網友親測，用一張英偉達4090運行Llama 3.1。

結果可想而知，等了30分鐘模型才開始回應，緩緩吐出一個「The」。

最后結果是，Llama給出完整回應，整整用了20個小時。

根據Artificial Analysis的估算，你需要部署含2張8×H100的DGX超算才能在本地運行405B。

看來，小扎對Llama 3.1成為開源AI界Linux的期待，可能和現實有不少的差距。目前的硬件能力，很難支持405B模型的大范圍全量運行。

此時，又一位開源巨頭Mistral精準踩點，發布了他們的最新旗艦模型Mistral Large 2。

Mistral Large 2在代碼生成、數學和推理等方面的能力明顯增強，可以與GPT-4o和Llama 3.1一較高下。

而且，模型參數量僅有123B，不到Llama 3.1 405B的三分之一，完全可以在單個節點上以大吞吐量運行。

成本效率、速度和性能的「三角形戰士」，Mistral Large當之無愧——

和GPT-4o比，它開源；和Llama 3.1 450B比，它參數少；和Llama 3 70B比，它性能好。

推特網友驚呼，「開源AI就這么卷起來了嗎！」

短短一周時間內，GPT-4o mini、Llama 3.1、Mistral Large 2相繼發布，有些讓人應接不暇。

「我躺了，你們先卷著。」

但躺平陣營中絕對不包含ollama。前腳Mistral剛官宣，這邊就火速更新。

果然，參數量砍去一大半之后，本地部署難度就大大下降了。

同樣從ollama上下載模型，用96GB內存還是可以順利運行起來的。

雖然3 token/s的生成速度慢了點，但比起用20個小時等模型響應，已經是質的飛躍了。

用前段時間擊穿GPT-4o的「9.11 vs. 9.9」問題測試Large 2，沒想到它竟然答對了。

值得一提的是，Mistral Large首代發布還不到半年（2024年2月），但并沒有開源，用戶只能通過官方API或Azure訪問。

剛發布的Mistral Large 2則已經將模型權重托管到了HuggingFace倉庫中，向研究和非商業用途開放，但商業用途的部署仍需要直接聯系Mistral以取得許可。

HuggingFace地址：https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

不僅上下文窗口從上一代的32k增長到了128k（同Llama 3.1），而且有強大的多語言能力，支持數十種自然語言以及80多種編程語言。

令人印象深刻的是，Mistral Large的預訓練版本在MMLU上的準確率可以達到84%。

這個成績已經超過了340B參數的Nemotron，而且與GPT-4（85.1%）和Llama 3.1（87.3%）基本處于同一水平，可以說是將模型性能/成本的Pareto最優邊界又向前推進了一步。

出自Llama 3.1論文

代碼與推理

基于Mistral之前訓練Codestral 22B和Codestral Mamba的經驗，研究團隊對Mistral Large 2也進行了大量代碼訓練，支持包括Python、Java、C、C++、JavaScript 和Bash在內的80多種語言。

在代碼生成方面，Mistral Large 2遠遠優于Llama 3.1 70B和之前的Mistral Large，與Llama 3.1 405B不相上下。

團隊在提高模型的推理能力方面也投入了大量精力。在訓練過程中，特別關注減少模型的「幻覺」。

實現方法就是通過微調，讓模型的響應更加謹慎而敏銳，確保它提供可靠、準確的輸出。

此外，經過訓練的Mistral Large 2還被賦予了一個品質：承認自己并非無所不知。

在無法找到解決方案，或沒有足夠信息支撐有效回答時，模型會直接承認而非「不懂裝懂」。

Mistral Large 2這種對答案準確性的「責任感」，提升了在數學基準上的表現，展現了更強的推理和解決問題的能力。

在用于代碼生成的HumanEval和HumanEval Plus基準測試中，它的表現優于Claude 3.5 Sonnet和Llama 3.1，僅次于GPT-4o。

代碼生成基準測試

在MultiPL-E基準上，Mistral Large 2的平均生成準確率領先Llama 3.1將近1個百分點，而且可以媲美GPT-4o。

縱向比較也可以看出，Codestral系列的經驗對Mistral Large 2有不少助益。僅僅過了5個月，Mistral Large系列的生成準確率就從58.8%飆升至74.4%。

而且，在以數學為重點的基準測試中（GSM8K和MATH），它的表現也可圈可點。

GSM8K（8-shot）和MATH（0-shot，無CoT）基準測試

指令執行與對齊

Mistral Large 2的指令執行和對話能力也得到了顯著提升，在執行精確指令和處理長時間多輪對話方面表現尤為出色。

以下是其在Wild Bench和Arena Hard基準測試上的表現：

通用對齊基準測試

在一些基準測試中，生成較長的回答通常會提高得分。

然而，在許多商業應用中，答案的簡潔至關重要——簡短的模型響應可以促進更快速的交互，讓推理過程更加高效且降低成本。

Mistral聲稱Large 2可以比領先的人工智能模型產生更簡潔的響應，因為后者傾向于喋喋不休。

下圖展示了不同模型在MT Bench基準測試中問題的平均生成長度：

語言多樣性

如今，許多商業應用涉及處理多語言文檔。

盡管大多數模型以英語為中心，但Mistral Large 2在大量多語言數據上進行了訓練。

比如，在法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、俄語、中文、日語、韓語、阿拉伯語和印地語等多種語言上，Mistral Large 2都有出色的性能。

以下是Mistral Large 2在多語言MMLU基準測試中的表現結果，并與之前的Mistral Large、Llama 3.1模型以及Cohere的Command R+進行了比較：

在下圖的8種語言上，Mistral Large 2的性能可以媲美Llama 3.1 405。但值得注意的是，所有模型似乎都在中文MMLU上取得了最低分。

工具使用與函數調用

Mistral Large 2具備了更強的函數調用和檢索能力，能夠熟練執行并行和順序的函數調用，準確率甚至超過了GPT-4o。

這意味著，Mistral Large 2可以成為復雜商業應用的核心引擎。

除了直接從HuggingFace上下載權重，用戶可以通過官方API平臺la Plateforme訪問或微調模型，免費聊天機器人le chat也已經部署了Mistral Large 2。

Vertex AI、Azure Studio等第三方云平臺也托管了Mistral Large 2的API。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：最新中文字幕一区 | 狠狠做深爱婷婷综合一区 | 一级欧美一级日韩片免费观看 | 日韩成人精品视频 | 欧美综合精品 | 最近中文字幕第一页 | 五月激情婷婷在线 | 国产色黄 | 亚洲欧美中文日韩在线v日本 | 色综合久 | 亚洲成av片人久久久 | 99精品免费 | 男人天堂免费在线 | 久久性| 欧美精品国产一区二区 | 国产成人精品一区二 | 久久中文字幕视频 | 国产精品久久久久久久7电影 | 午夜日韩| 日日夜夜精品视频 | 亚洲成av人影片在线观看 | 日韩免费视频 | 青青久在线视频 | 欧美日韩国产一区二区 | 91精品国产乱码久久久久久久久 | 美女福利网站 | 欧美老少妇一级特黄一片 | 羞羞视频免费观看 | 午夜羞羞 | 午夜免费| 亚洲精品电影在线 | 亚洲区在线 | 成人免费视频 | 久久久久国产 | 四虎永久免费地址 | 91精品国产综合久久精品图片 | 亚洲欧洲精品一区 | 黑人精品欧美一区二区蜜桃 | 国产一区二区 | 成人在线视频一区二区三区 | 国产激情视频在线观看 |

<u id="wvbfo"></u>