Mistral殺回來(lái)了!Small 3.1開(kāi)源發(fā)布,性能完勝Gemma 3,RTX 4090就能跑
Mistral 又搞了個(gè) “小而美” 的狠貨: Mistral Small 3.1 發(fā)布并開(kāi)源:
號(hào)稱(chēng) “小 3.1”,但能力不 “小”。 多模態(tài)、開(kāi)源 Apache 2.0 協(xié)議,關(guān)鍵是性能還杠杠的,直接 PK 掉 Gemma 3 和 GPT-4o mini。
看 Benchmark 圖: 橫坐標(biāo)是速度,越小越快; 縱坐標(biāo)是知識(shí),越大越強(qiáng)。 Mistral Small 3.1,直接霸榜左上角,速度、知識(shí)雙 Buff 加持。
Mistral 官方列出了 Small 3.1 的關(guān)鍵特性和能力:
? 輕量級(jí): 能在 RTX 4090 或 32GB 內(nèi)存的 Mac 上運(yùn)行,適合本地部署。
? 快速響應(yīng): 適合虛擬助手等需要快速響應(yīng)的應(yīng)用。
? 低延遲函數(shù)調(diào)用: 能快速執(zhí)行函數(shù)。
? 領(lǐng)域微調(diào): 能針對(duì)特定領(lǐng)域進(jìn)行微調(diào),比如法律、醫(yī)療等。
? 高級(jí)推理基礎(chǔ): 社區(qū)可以在此基礎(chǔ)上構(gòu)建更強(qiáng)的推理模型。
最近幾周,已經(jīng)有一些基于 Mistral Small 3 的優(yōu)秀推理模型出現(xiàn),比如Nous Research 的 DeepHermes 24B。Mistral 同時(shí)發(fā)布了基礎(chǔ)模型和指令調(diào)優(yōu)的 checkpoint,方便大家進(jìn)一步定制。
“AI 智能,兩周一降價(jià)”, 這趨勢(shì)有點(diǎn)猛。
有人分析 Mistral Small 3.1,覺(jué)得這模型潛力巨大。 雖然現(xiàn)在還不是原生多模態(tài),但 Mistral 可能會(huì)憋個(gè)大的,直接搞個(gè)原生多模態(tài)模型出來(lái)。
參數(shù) 30B 左右,各種模態(tài)都支持。 要是真成了,說(shuō)不定能再現(xiàn) Mistral 7B 的 “經(jīng)典時(shí)刻”。
Mistral Small 3.1 的基準(zhǔn)測(cè)試成績(jī)
多張圖。
先看多語(yǔ)言能力,Mistral Small 3.1 在歐洲、東亞、中東語(yǔ)言上平均值領(lǐng)先。
長(zhǎng)上下文方面,Mistral Small 3.1 只有在RULER 上不如 Claude-3.5 Haiku。
多模態(tài)指令上,Mistral Small 3.1 都有顯著優(yōu)勢(shì)。
文本指令上,Mistral Small 3.1 在 SimpleQA 、GPQA Main、GPQA Diamond 上領(lǐng)先。在 MMLU、MMLU Pro、HumanEval、MATH 上,也是有高有低。
有網(wǎng)友指出,Mistral Small 3.1 參數(shù)多、支持多語(yǔ)言、多模態(tài),還沒(méi)啥限制,就是推理能力差點(diǎn)意思。
但馬上有人潑冷水,說(shuō)簡(jiǎn)單任務(wù)用推理模型就是 “高射炮打蚊子”, 太啰嗦。 他們更喜歡輕量級(jí)的模型處理日常小事。
推理能力不是萬(wàn)金油。 像低延遲翻譯,速度才是硬道理,要啥推理?
并且這個(gè)模型還開(kāi)源:
有人覺(jué)得 Mistral 完勝, gpt4o-mini 不行。
反方表示,GPT-4 級(jí)別大模型的 “底蘊(yùn)” 還是在那兒,小模型就算加了 RL 也比不了, “隱含知識(shí)” 就是值錢(qián)。
而又說(shuō)到基準(zhǔn)測(cè)試,有眼尖的網(wǎng)友表示:
“ 這測(cè)試選的,也太奇怪了吧?對(duì)比的模型也怪怪的。Mistral Small 3.0 呢?藏哪兒去了?是不是怕露餡?”
“ 還有,有些地方 Mistral Small 3.1 只是勉強(qiáng)贏了 Gemma3-it-27b,之前 3.0 可是碾壓的啊,這啥情況?”
對(duì)此,網(wǎng)友表示:“ 最近的模型,都喜歡挑對(duì)自己有利的測(cè)試,Mistral 更狠,直接無(wú)視中國(guó)的模型… ”
本文轉(zhuǎn)載自AI進(jìn)修生,作者:Aitrainee
