24B模型編程超DeepSeek全家桶,32G內(nèi)存蘋果電腦就能跑,專門針對真實(shí)GitHub Issue訓(xùn)練
Mistral沉默好久,果然在憋大招。
剛剛發(fā)布最新開源編程模型Devstral,在軟件工程任務(wù)上一舉超過DeepSeek全家桶和Qwen3 235B。
并且參數(shù)只有24B,可以在單卡RTX4090甚至32G內(nèi)存的Mac上運(yùn)行。
Devstral專為編程智能體推出,解決傳統(tǒng)大模型只擅長碎片化的編程任務(wù),難以解決現(xiàn)實(shí)世界軟件工程的問題。
它針對真實(shí)的GitHub Issue訓(xùn)練,重點(diǎn)在大型代碼庫中代碼的上下文理解、識別不同組件間的關(guān)系,以及識別復(fù)雜函數(shù)中的細(xì)微錯(cuò)誤。
在包含500個(gè)真實(shí)GitHub Issue問題的SWE-Bench Verified基準(zhǔn)測試中,Devstral不僅成為開源SOTA,還優(yōu)于許多同等參數(shù)規(guī)模的閉源模型。
Devstral由Mistral AI和All Hands AI合作開發(fā),使用Apache2.0開源許可。與上一款代碼模型Codestral明確禁止“員工在公司業(yè)務(wù)活動中進(jìn)行任何內(nèi)部使用”相比也更開放了。
這次發(fā)布沒有配套論文,也沒有更多詳細(xì)的技術(shù)介紹,那么效果具體如何,只能看實(shí)際測試了。
最新開源代碼模型實(shí)際表現(xiàn)
合作開發(fā)方All Hands AI聯(lián)創(chuàng)分享了Devestral給他帶來的“驚喜時(shí)刻”:
當(dāng)被要求寫一個(gè)待辦事項(xiàng)列表APP時(shí),AI沒有直接開始寫,而是詢問用戶想要使用哪些技術(shù)棧。
還有開發(fā)者手動為Devstral添加了視覺支持,并要求它復(fù)刻Claude網(wǎng)頁版的界面UI。
雖然結(jié)果并不是很出彩,但算是完成了任務(wù)。
據(jù)這位開發(fā)者分析,Devtral是Mistral-Small的微調(diào),不清楚官方為什么把視覺編碼器拿掉了,直接加回去就能使用了。
與All Hands AI合作開發(fā)
合作方All Hands AI的口號是“少寫代碼,多做事“,他們沒有開發(fā)自己的基礎(chǔ)膜,而是專注于構(gòu)建智能體框架。
Devstral可與All Hands AI的OpenHands或SWE-Agent等智能體框架配合使用。
OpenHands智能體框架可以執(zhí)行人類程序員能做的任何操作,包括修改代碼、運(yùn)行命令、瀏覽網(wǎng)頁、調(diào)用API,甚至可以從StackOverflow復(fù)制代碼片段。
Devestral目前屬于研究預(yù)覽版狀態(tài),團(tuán)隊(duì)表示正在努力努力構(gòu)建一個(gè)更強(qiáng)大的代理編碼模型,預(yù)計(jì)將在未來幾周內(nèi)發(fā)布。
自去年4月推出以來,OpenHands在GitHub上已經(jīng)積攢了5萬+標(biāo)星。
Devstral下載:
https://huggingface.co/mistralai/Devstral-Small-2505
參考鏈接:
[1]https://mistral.ai/news/devstral
[2]https://x.com/ngxson/status/1925202510312067494