4B Qwen3逆襲671B DeepSeek！字節(jié)DAPO微調(diào)方法這么猛的嗎

2025-06-17 08:45:00

最新模型Jan-nano引起熱議，它在智能體任務(wù)上超過671B的最新版DeepSeek-V3 0528，在SimpleQA基準(zhǔn)上獲得80.7分。

4B小模型極限在哪里？

最新模型Jan-nano引起熱議，它在智能體任務(wù)上超過671B的最新版DeepSeek-V3 0528，在SimpleQA基準(zhǔn)上獲得80.7分。

先來看一下它的實(shí)際表現(xiàn)，包括兩個(gè)任務(wù)：

對(duì)研究某公司目前的擴(kuò)張情況，該公司的擴(kuò)張正威脅著另一家公司的市場(chǎng)份額，并撰寫一份可能影響金融公司盡職調(diào)查流程的MBA水平報(bào)告。
匯總今日財(cái)經(jīng)突發(fā)新聞，聚焦令人震驚的消息。

總結(jié)一下，Jan-nano的能力包括：

再來看一下官方評(píng)估結(jié)果，與它同臺(tái)競(jìng)技的不是閉源方案就是DeepSeek-v3這樣的671B大型MoE模型。

目前Jan-nano取得最高分80.7%，并且作者透露下一個(gè)版本的目標(biāo)是85%。

不過研究團(tuán)隊(duì)Menlo Research特別提醒大家，Jan-Nano只是在這一個(gè)指標(biāo)上優(yōu)于Deepseek-671B，并且在測(cè)試中使用了基于MCP的方法。

我們完全理解4B模型有其局限性，但看看它能走到多遠(yuǎn)總是很有趣的。

具體來說，Jano在Qwen3-4B上使用字節(jié)&清華開源的DAPO強(qiáng)化學(xué)習(xí)微調(diào)方法。

團(tuán)隊(duì)稱將很快發(fā)布詳細(xì)的技術(shù)報(bào)告，敬請(qǐng)期待。

誰是Menlo Research？

Menlo Research是一個(gè)專注于AI和機(jī)器人技術(shù)的開放研發(fā)實(shí)驗(yàn)室，其主要目標(biāo)為構(gòu)建機(jī)器人的”大腦”。

創(chuàng)始人為一對(duì)夫妻D(zhuǎn)aniel Ong與Nicole Zhu，Nicole Zhu在斯坦福讀人機(jī)交互碩士期間休學(xué)創(chuàng)業(yè)，此前在谷歌做過高級(jí)工程師。

Menlo Research堅(jiān)持用戶擁有原則，產(chǎn)品都是開源的，設(shè)計(jì)為離線運(yùn)行或自托管。

此前Menlo Research的核心產(chǎn)品是Jan，一個(gè)可以100%離線運(yùn)行的開源AI助手應(yīng)用。

Jan被定位為ChatGPT的替代品，曾在推出數(shù)月后，在沒有風(fēng)險(xiǎn)投資支持的情況下超過百萬次下載，

Jan的長(zhǎng)遠(yuǎn)愿景是成為“自驅(qū)動(dòng)計(jì)算機(jī)”，實(shí)現(xiàn)從用戶操作計(jì)算機(jī)到計(jì)算機(jī)自主操作的轉(zhuǎn)變，具體來說，規(guī)劃中的能力包括。

此外，Menlo Research還在新加坡Echelon展會(huì)上展出了一款人形機(jī)器人。

Jan-nano模型下載：
https://huggingface.co/Menlo/Jan-nano

Menlo Research：https://menlo.ai

責(zé)任編輯：張燕妮來源：量子位