成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

可能是目前最好的3B多模態(tài)模型,有望做“AI作業(yè)幫”

人工智能
AI作業(yè)助手,特別是數(shù)學(xué)作業(yè)助手,僅僅有答案還不夠,更重要的是給出推導(dǎo)過程。這也是VLR1-3B的重要能力,就是它的推理能力。

作者 | 徐浚哲、尹宇陽

我們團(tuán)隊近期開源多模態(tài)模型VLR1-3B的預(yù)覽版(preview),歡迎大家嘗試:

https://huggingface.co/TencentBAC/TBAC-VLR1-3B-preview

我們訓(xùn)練了一個3B的“小”模型,使用了強(qiáng)化學(xué)習(xí)訓(xùn)練方式,增強(qiáng)了推理性能。達(dá)到了同級別模型中推理能力第一(SOTA)。

主要是數(shù)學(xué)相關(guān)的測試,在MathVista和MathVision這兩個權(quán)威AI數(shù)學(xué)榜單的官網(wǎng)上,VLR1-3B 這“小”模型不僅都在榜,而且比很多商業(yè)閉源大模型(如Gemini1.5和GPT-4V)表現(xiàn)都要強(qiáng),甚至在MathVista的評測中領(lǐng)先GPT-4o~

同時對比了多個banchMark結(jié)果,Average第一~

Model

Average

MathVista

MathVision

MathVerse

DynaMath

WeMath

LogicVista

Qwen2-VL-2B

20.5

48.0

16.1

17.5

3.8

10.8

26.6

InternVL2.5-2B

21.2

51.1

14.0

22.3

4.4

8.0

27.3

InternVL3-2B

29.1

57.6

20.2

24.5

14.8

22.9

40.3

Qwen2.5-VL-3B

31.8

61.2

21.9

31.2

13.2

22.9

40.3

VLM-R1-3B-Math-0305

33.4

62.7

21.9

32.2

13.0

30.0

40.5

Taichu-VLR-3B

33.6

64.9

23.1

32.1

12.6

30.4

38.7

VLAA-Thinker-Qwen2.5VL-3B

35.4

61.0

24.4

36.4

18.2

33.8

38.5

TBAC-VLR1-3B-preview

35.7

64.8

25.0

33.2

17.7

32.4

40.8

正巧最近正愁幫鄰居剛上初中的孩子批數(shù)學(xué)作業(yè),被多項式計算和幾何證明搞得焦頭爛額的。

現(xiàn)在試著擼個自己的“AI作業(yè)幫”,幫干活。

一、AI作業(yè)助手

要說明的是,AI作業(yè)助手,特別是數(shù)學(xué)作業(yè)助手,僅僅有答案還不夠,更重要的是給出推導(dǎo)過程。這也是VLR1-3B的重要能力,就是它的推理能力。

下面來看一下搭載了VLR1-3B模型后,我這個丐版的“作業(yè)幫”真實(shí)的答題效果。

1. 多項式計算

先從真題試卷中截取了兩道基礎(chǔ)計算題進(jìn)行測試:

哪怕是拍照的試卷問題也可以準(zhǔn)確的識別,計算過程也清晰,答案正確??,通過。再試一道:

很好,應(yīng)用了正確的公式??,鄰居家小孩似乎可以愉快的抄寫作業(yè)了呢??

2. 坐標(biāo)系理解

接下來要稍微上一點(diǎn)難度,看看 VLR1-3B 對平面直角坐標(biāo)系的理解如何:

不錯,一開始就理解了這一題的考點(diǎn),并告知了題點(diǎn),橫縱坐標(biāo)都為負(fù)的點(diǎn),然后還分析了每個選項,給出正確答案。解釋的有理有據(jù)??。以后還會有家長給熊孩子講題講到心梗嗎??

3. 函數(shù)計算

下面要進(jìn)行的是函數(shù)計算,依然考驗(yàn)?zāi)P蛷膱D片中正確的讀取函數(shù)公式,并依靠推理能力得出函數(shù)計算結(jié)果:

問題:f(4)等于多少?

函數(shù)識別??,計算過程??,答案?。

4. 平面幾何

接下來是重中之重的測試,平面幾何。先來兩道填空題:

問題:△ABC的兩內(nèi)角平分線OB、OC相交于點(diǎn)O,若∠A=110°,則∠BOC=()

表現(xiàn)依然出色,不僅給出了詳盡的推理過程,還給出了準(zhǔn)確的答案 ?

接下來再來一題:

問題:如圖,在△ABC中,AB=8,BC=12,點(diǎn)D、E分別是邊AB、AC的中點(diǎn),點(diǎn)F是線段DE上的一點(diǎn),連接AF、BF,若∠AFB=90°,則線段EF的長為()

非常棒平面幾何解題能力??,在應(yīng)用了正確的公式定理下,還會用“∵”,“∴”等專業(yè)的數(shù)學(xué)推理符號

平面幾何是中學(xué)數(shù)學(xué)的重點(diǎn),與填空和選擇不同,模型有可能靠蒙答對題(人也會哈),這種證明類型的題目更考驗(yàn)?zāi)P偷摹罢姹臼隆?,再來測試一道平面幾何的證明題:

沒問題,證明過程清晰,測試通過 ?。

5. 物理

既然 VLR1-3B 在數(shù)學(xué)方面表現(xiàn)的這么好,何不再挑戰(zhàn)一下,做個物理題試試?

哦吼~,物理題也能答,還能解釋對自己的選擇。

二、What's more?

從之前的測試來看,VLR1-3B 有確實(shí)有著出眾的數(shù)學(xué)能力,從圖片的公式理解到答案的推理求解,甚至格式的輸出都有著令人滿意的效果。既然如此,當(dāng)然就要“強(qiáng)模型所難”, 考驗(yàn)一下VLR1-3B 在其他通用多模態(tài)場景的表現(xiàn):

先用我最喜歡的貓咪開始測試,詢問它圖中貓的花紋、品種和年齡:

Bingo,回答很準(zhǔn)確~

再來,因?yàn)橛袕氖碌氖亲詣玉{駛算法研究的經(jīng)驗(yàn),所以凡是遇到有視覺能力的模型,都會被我拿來測一下:

連自動駕駛車輛都認(rèn)識,那真實(shí)道路場景表現(xiàn)怎么樣呢?

相當(dāng)可以,車輛數(shù)量、顏色、類型都判斷正確 ?,同時天氣和駕駛環(huán)境也準(zhǔn)確識別。再來個夜晚場景,問問前方車輛的行駛意圖:

看來可以呀,到這,發(fā)現(xiàn)這確實(shí)是個麻雀雖小,五臟俱全的多模態(tài)模型~

三、結(jié)語

總體測試下來,過程中雖然也遇到了該級別模型的常見問題——如思考過程中的幻覺,特別是一些測試中,結(jié)果是正確的,但思考過程卻明顯失誤。但在后續(xù)更新和實(shí)際落地場景中,使用場景數(shù)據(jù)來Fine-tune后的模型能取得更好的效果。

話又說回來,畢竟是一個只有 3B的模型,它有望成為開源本地 “家庭 AI 作業(yè)幫”的的選手,后續(xù)會發(fā)表詳細(xì)的技術(shù)報告和論文。同時公開更多尺度的模型~

責(zé)任編輯:趙寧寧 來源: 騰訊技術(shù)工程
相關(guān)推薦

2024-08-28 11:56:33

2023-10-04 11:55:24

AI模型

2018-07-16 15:05:43

Redis內(nèi)存數(shù)據(jù)庫

2020-05-17 16:06:47

ICMPIP協(xié)議網(wǎng)絡(luò)協(xié)議

2024-10-17 18:52:41

2024-03-27 09:09:57

模型AI開源

2023-01-08 13:07:46

2023-11-28 12:49:37

數(shù)據(jù)訓(xùn)練

2018-11-05 08:10:30

Netty架構(gòu)模型

2019-07-26 11:27:25

MySQLSQL數(shù)據(jù)庫

2017-12-15 10:00:46

前端框架Vue.js

2024-06-04 14:09:00

2024-01-17 12:08:32

模型訓(xùn)練

2021-06-28 08:39:04

外包職位企業(yè)

2025-02-07 11:00:00

模型開源AI

2024-12-09 08:15:43

2017-10-17 12:43:17

前端CSS布局

2023-05-09 16:02:14

人工智能ChatGPT

2025-04-27 09:54:48

2025-01-08 08:21:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精品在线免费看 | 免费网站国产 | 日韩播放 | 久久九九影视 | 日韩手机视频 | 中文一区| 中文字幕在线看第二 | 欧美高清视频一区 | 盗摄精品av一区二区三区 | www国产亚洲精品久久网站 | 欧日韩在线 | 亚洲成av人片在线观看无码 | 久久久久一区二区三区四区 | 国产欧美在线 | 久久九精品 | 欧美在线a | 日韩免费视频一区二区 | 亚洲成人一区二区三区 | 欧美精品一区二区蜜桃 | 国产精彩视频在线观看 | 日韩av福利在线观看 | 成人在线播放 | 国产精品久久性 | 中文精品久久 | 亚洲一区在线播放 | 日韩一区在线播放 | 久久综合久久久 | 免费观看一级特黄欧美大片 | aaa在线观看 | 五月香婷婷 | 亚洲第一在线 | 狠狠热视频 | 九九精品在线 | 日本二区在线观看 | 国产成人精品福利 | 久久青青 | 国产免费一区二区 | 国产a视频 | 一级看片免费视频 | 毛色毛片免费看 | 日韩理论电影在线观看 |