成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

歐洲黑馬Mistral Medium 3來了!跑分對標最強Claude,實測大翻車

人工智能 新聞
法國初創(chuàng)Mistral,剛剛推出定價碾壓DeepSeek V3的模型,而模型性能,卻超過Claude Sonnet 3.7的90%。不過在網(wǎng)友們的實測中,它卻翻車了?有人建議:不必下載浪費流量和硬盤空間。

就在剛剛, Mistral AI發(fā)布了他們最新多模態(tài)模型Mistral Medium 3。

Mistral興奮地宣稱Mistral Medium 3的性能接近甚至達到了Claude Sonnet 3.7的水平,但成本卻比DeepSeek V3還低。

性價比拉滿!

圖片

在Mistral官方的博客中,列出了Mistral Medium 3的核心亮點:

1. Mistral Medium 3平衡了:

  • 頂尖性能
  • 成本降低至原來的八分之一
  • 更易于部署,從而加速企業(yè)應(yīng)用

2. 模型在代碼編寫和多模態(tài)理解等專業(yè)應(yīng)用場景中表現(xiàn)出色。

3. 模型提供一系列企業(yè)功能,包括:

  • 支持混合云部署、本地部署以及在VPC內(nèi)部署
  • 定制化后訓練
  • 集成到企業(yè)工具和系統(tǒng)中

Mistral Medium 3 API,現(xiàn)已在Mistral La Plateforme和Amazon Sagemaker上線,并將很快登陸IBM WatsonX、NVIDIA NIM、Azure AI Foundry和Google Cloud Vertex。

完美平衡

Mistral Medium 3在提供前沿性能的同時,成本卻降低了一個數(shù)量級。

例如,在各項基準測試中,Mistral Medium 3的性能達到甚至超過了Claude Sonnet 3.7的90%,但成本卻顯著降低(每百萬Token的輸入成本為0.4美元,輸出成本為2美元)。

Mistral Medium 3的性能也超越了領(lǐng)先的開源模型,如Llama 4 Maverick和Cohere Command A等企業(yè)模型。

無論是API還是自主部署,Mistral Medium 3的成本都要比DeepSeek V3還低。

此外,Mistral Medium 3還可以部署在任何云上,包括四個GPU及以上的自托管環(huán)境。

頂級性能

Mistral表示,Mistral Medium 3的目標是成為一款性能頂尖的模型,尤其是在編碼和STEM任務(wù)中表現(xiàn)突出,性能直逼那些規(guī)模更大、速度更慢的競爭對手。

從Mistral給出的表中可以看出Mistral Medium 3性能已經(jīng)基本上超越Llama 4 Maverick和GPT-4o,接近Claude Sonnet 3.7以及DeepSeek 3.1的水平。

圖片

人工評估結(jié)果

除了學術(shù)基準之外,Mistral還公布了第三方人工評估,后者更能代表真實世界的用例。

可以看到,Mistral Medium 3在編碼領(lǐng)域表現(xiàn)出色,并且在各個方面都比其他競爭對手提供了更好的性能。

圖片

圖片

專為企業(yè)級應(yīng)用打造

Mistral Medium 3在適應(yīng)企業(yè)環(huán)境的能力方面優(yōu)于其他SOTA模型。

在企業(yè)面臨通過API進行微調(diào),或從零開始自部署并定制模型行為的艱難選擇時,Mistral Medium 3提供了一條將智能全面集成到企業(yè)系統(tǒng)中的途徑。

Mistral還推出了由Mistral Medium 3模型驅(qū)動的Le Chat Enterprise,一款面向企業(yè)的聊天機器人服務(wù)。

它提供了一個AI智能體構(gòu)建工具,并將Mistral的模型與Gmail、Google Drive和SharePoint等第三方服務(wù)整合。

這就可以解決企業(yè)面臨的AI挑戰(zhàn),如工具碎片化、不安全的知識集成、僵化的模型以及緩慢的投資回報率等,為所有組織工作提供統(tǒng)一的AI平臺。

Le Chat Enterprise很快將支持MCP協(xié)議,這是Anthropic提出的連接AI與數(shù)據(jù)系統(tǒng)和軟件的標準。

One more thing…

Mistral還在博客中透露,雖然Mistral Small和Mistral Medium都已經(jīng)發(fā)布,但在未來幾周內(nèi),他們有一個「大」計劃,也就是Mistral Large。

他們表示剛發(fā)布的Mistral Medium性能已經(jīng)遠勝Llama 4 Maverick等頂尖開源模型,Mistral Large的性能更加值得期待。

網(wǎng)友實測:就這?

號稱超越Claude Sonnet 3.7的90%,Medium 3果然有這么強嗎?

媒體和網(wǎng)友們立刻展開了實測。

在基于《紐約時報》Connections欄目詞匯分類題的評測中,Medium 3處于倒數(shù)的位置,幾乎找不到它。

圖片

在全新的100題測評中,它在前排模型中也排不上號。

圖片

有人測試Medium 3后表示,它的寫作能力還是老樣子,沒啥進步。不過在LLM評測中,它倒是處在帕累托前沿。

圖片

圖片

圖片

而Zhu Liang測試后發(fā)現(xiàn),模型在代碼編寫和文本生成方面表現(xiàn)都很扎實,在這兩項評測中都躋身前五。

在簡單編碼任務(wù)(Next.js TODO應(yīng)用)中:

  • 它生成了簡潔明了的回復(fù)
  • 評分和Gemini 2.5 Pro、Claude 3.5 Sonnet差不多
  • 遜于DeepSeek V3 (新) 和GPT-4.1

在復(fù)雜編碼任務(wù)(基準測試可視化)中:

  • 產(chǎn)生的平均結(jié)果與Gemini 2.5 Pro和DeepSeek V3(新)相似
  • 不如GPT-4.1、o3和Claude 3.7 Sonnet

在寫作上:

  • 它的內(nèi)容覆蓋了大部分要點,但格式不正確
  • 評分與DeepSeek V3 (新) 和Claude 3.7 Sonnet相近
  • 不如GPT-4.1和Gemini 2.5 Pro

圖片

圖片

知名大佬「karminski-牙醫(yī)」實測后發(fā)現(xiàn),它的性能并不像官方吹得那么強。

建議我們不必下載,浪費流量和硬盤空間了。

圖片

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-05-08 09:07:13

2024-12-31 12:35:46

2024-03-06 12:55:15

2024-10-17 14:30:00

AI模型數(shù)據(jù)

2021-11-17 10:18:31

iOS蘋果系統(tǒng)

2022-05-31 16:08:25

Web3算法挑戰(zhàn)

2025-03-10 18:50:57

2025-05-28 11:44:24

AI模型研究

2025-02-19 09:34:01

2024-03-05 10:55:22

OpenAISOTAClaude 3

2025-03-10 07:20:00

模型AI數(shù)據(jù)

2023-08-30 07:37:21

AMDFSR 3英偉達

2023-09-21 10:31:06

人工智能模型

2023-03-16 19:17:57

2022-12-05 11:44:49

PrintDebugIceCream

2009-10-15 08:52:42

Windows 7銷售市場

2023-07-13 15:10:06

2025-03-31 00:00:00

DeepSeekAI人工智能

2025-04-17 14:09:52

OpenAI模型編程

2024-07-19 12:48:29

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 99热在线免费| 欧美一区视频 | 羞羞视频网站在线观看 | 日本三级电影免费 | 黄色国产区| 欧美日韩精品一区 | 国产探花| av资源在线看 | 欧美激情精品久久久久久 | 精品久久久久久久久久久久久久 | 中文字幕av网站 | 天堂在线一区 | 亚洲精品久久久一区二区三区 | 免费观看毛片 | 亚洲精品一 | 亚洲一区二区中文字幕 | 伊人操 | 国产一级黄色网 | 亚洲国产欧美在线 | 久久精品国内 | 色综合久久天天综合网 | 亚洲人的av | 久久久成人动漫 | 91精品国产91久久久久久吃药 | 久色视频在线观看 | 在线观看黄色电影 | 国产成人精品一区二区三区在线 | 亚洲精品一级 | 日韩伦理一区二区三区 | 免费h在线 | 青春草91 | 欧美综合一区二区三区 | 老牛影视av一区二区在线观看 | 国产日韩欧美在线播放 | 国产精品免费一区二区三区 | 美国av片在线观看 | 亚洲视频一区在线 | 一区二区日本 | 日本a级大片 | 国产区精品 | 免费一二区 |