可能是目前最好的3B多模態(tài)模型，有望做“AI作業(yè)幫”

作者：騰訊技術(shù)工程 2025-05-27 08:30:00

AI作業(yè)助手，特別是數(shù)學(xué)作業(yè)助手，僅僅有答案還不夠，更重要的是給出推導(dǎo)過程。這也是VLR1-3B的重要能力，就是它的推理能力。

作者 | 徐浚哲、尹宇陽

我們團(tuán)隊近期開源多模態(tài)模型VLR1-3B的預(yù)覽版（preview），歡迎大家嘗試：

https://huggingface.co/TencentBAC/TBAC-VLR1-3B-preview

我們訓(xùn)練了一個3B的“小”模型，使用了強(qiáng)化學(xué)習(xí)訓(xùn)練方式，增強(qiáng)了推理性能。達(dá)到了同級別模型中推理能力第一（SOTA）。

主要是數(shù)學(xué)相關(guān)的測試，在MathVista和MathVision這兩個權(quán)威AI數(shù)學(xué)榜單的官網(wǎng)上，VLR1-3B 這“小”模型不僅都在榜，而且比很多商業(yè)閉源大模型（如Gemini1.5和GPT-4V）表現(xiàn)都要強(qiáng)，甚至在MathVista的評測中領(lǐng)先GPT-4o～

同時對比了多個banchMark結(jié)果，Average第一～

Model	Average	MathVista	MathVision	MathVerse	DynaMath	WeMath	LogicVista
Qwen2-VL-2B	20.5	48.0	16.1	17.5	3.8	10.8	26.6
InternVL2.5-2B	21.2	51.1	14.0	22.3	4.4	8.0	27.3
InternVL3-2B	29.1	57.6	20.2	24.5	14.8	22.9	40.3
Qwen2.5-VL-3B	31.8	61.2	21.9	31.2	13.2	22.9	40.3
VLM-R1-3B-Math-0305	33.4	62.7	21.9	32.2	13.0	30.0	40.5
Taichu-VLR-3B	33.6	64.9	23.1	32.1	12.6	30.4	38.7
VLAA-Thinker-Qwen2.5VL-3B	35.4	61.0	24.4	36.4	18.2	33.8	38.5
TBAC-VLR1-3B-preview	35.7	64.8	25.0	33.2	17.7	32.4	40.8

正巧最近正愁幫鄰居剛上初中的孩子批數(shù)學(xué)作業(yè)，被多項式計算和幾何證明搞得焦頭爛額的。

現(xiàn)在試著擼個自己的“AI作業(yè)幫”，幫干活。

一、AI作業(yè)助手

要說明的是，AI作業(yè)助手，特別是數(shù)學(xué)作業(yè)助手，僅僅有答案還不夠，更重要的是給出推導(dǎo)過程。這也是VLR1-3B的重要能力，就是它的推理能力。

下面來看一下搭載了VLR1-3B模型后，我這個丐版的“作業(yè)幫”真實(shí)的答題效果。

1. 多項式計算

先從真題試卷中截取了兩道基礎(chǔ)計算題進(jìn)行測試：

哪怕是拍照的試卷問題也可以準(zhǔn)確的識別，計算過程也清晰，答案正確??，通過。再試一道：

很好，應(yīng)用了正確的公式??，鄰居家小孩似乎可以愉快的抄寫作業(yè)了呢??

2. 坐標(biāo)系理解

接下來要稍微上一點(diǎn)難度，看看 VLR1-3B 對平面直角坐標(biāo)系的理解如何：

不錯，一開始就理解了這一題的考點(diǎn)，并告知了題點(diǎn)，橫縱坐標(biāo)都為負(fù)的點(diǎn)，然后還分析了每個選項，給出正確答案。解釋的有理有據(jù)??。以后還會有家長給熊孩子講題講到心梗嗎??

3. 函數(shù)計算

下面要進(jìn)行的是函數(shù)計算，依然考驗(yàn)?zāi)Ｐ蛷膱D片中正確的讀取函數(shù)公式，并依靠推理能力得出函數(shù)計算結(jié)果：

問題：f(4)等于多少？

函數(shù)識別??，計算過程??，答案?。

4. 平面幾何

接下來是重中之重的測試，平面幾何。先來兩道填空題：

問題：△ABC的兩內(nèi)角平分線OB、OC相交于點(diǎn)O，若∠A＝110°，則∠BOC＝（）

表現(xiàn)依然出色，不僅給出了詳盡的推理過程，還給出了準(zhǔn)確的答案 ?

接下來再來一題：

問題：如圖，在△ABC中，AB＝8，BC＝12，點(diǎn)D、E分別是邊AB、AC的中點(diǎn)，點(diǎn)F是線段DE上的一點(diǎn)，連接AF、BF，若∠AFB＝90°，則線段EF的長為（）

非常棒平面幾何解題能力??，在應(yīng)用了正確的公式定理下，還會用“∵”，“∴”等專業(yè)的數(shù)學(xué)推理符號

平面幾何是中學(xué)數(shù)學(xué)的重點(diǎn)，與填空和選擇不同，模型有可能靠蒙答對題（人也會哈），這種證明類型的題目更考驗(yàn)?zāi)Ｐ偷摹罢姹臼隆?，再來測試一道平面幾何的證明題：

沒問題，證明過程清晰，測試通過 ?。

5. 物理

既然 VLR1-3B 在數(shù)學(xué)方面表現(xiàn)的這么好，何不再挑戰(zhàn)一下，做個物理題試試？

哦吼~，物理題也能答，還能解釋對自己的選擇。

二、What's more?

從之前的測試來看，VLR1-3B 有確實(shí)有著出眾的數(shù)學(xué)能力，從圖片的公式理解到答案的推理求解，甚至格式的輸出都有著令人滿意的效果。既然如此，當(dāng)然就要“強(qiáng)模型所難”，考驗(yàn)一下VLR1-3B 在其他通用多模態(tài)場景的表現(xiàn)：

先用我最喜歡的貓咪開始測試，詢問它圖中貓的花紋、品種和年齡：