成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最強數學大模型易主!阿里千問新模型成績超GPT-4o,網友:這才是真“草莓”

人工智能 新聞
最強的72B版本,在MATH數據集上比GPT-4o多得了7分,按比例算高出了9.6%。

最強數學大模型,現在易主!

阿里千問大模型團隊發布的Qwen2-Math,不僅超越了Llama 3.1-405B,也戰勝了GPT-4o、Claude 3.5等一系列閉源模型。

而且還會解決競賽級試題,在GPT-4只能做對一道的AIME 24中,Qwen2-Math答對的題目數量達到了兩位數。

圖片

Qwen2-Math一共有三個參數量的版本——72B,7B和1.5B。

最強的72B版本,在MATH數據集上比GPT-4o多得了7分,按比例算高出了9.6%。

7B版本也用不到十分之一的參數量,超過了72B的開源數學模型NuminaMath

而且這個NuminaMath來頭不小,它的7B版本在全球首屆AIMO中獲獎,獎項由數學大牛陶哲軒頒發

阿里高級算法專家林俊旸激動地宣布,千問團隊把Qwen2模型變成了一個數學高手。

圖片

fast.ai創始人Jeremy Howard看了直呼amazing。

圖片

網友更是驚嘆,原來這才是真正的“草莓”,這是開源的勝利,也是所有人的勝利。

圖片

超越GPT4o,會做競賽級試題

如前文所說,Qwen2-Math共有72B、7B和1.5B三個參數規模,分別由對應規模的Qwen2基礎模型改造而成。

在基礎模型之上,團隊使用精心設計的數學專用語料庫進行了預訓練,訓練數據包含大規模高質量的數學網絡文本、書籍、代碼、考試題目,以及由Qwen2模型合成的數學預訓練數據。

結果,在GSM8K、MATH等經典數學測試集上,Qwen2-Math-72B的數學能力都超過了405B的Llama-3.1

這些數據集,涉及到問題涵蓋了代數、幾何、計數與概率、數論等多種類型。

除了這些英文的數據集,Qwen2-Math還專門挑戰了中文數據集CMATH,還有高考試題。

在中文數據集上,1.5B版本的成績就超過了70B的Llama 3.1,而且三個版本相當于同規模的Qwen2基礎模型,成績都有明顯提升。

圖片

在Qwen2-Math的基礎之上,千問團隊還微調出了Instruct版本。

具體來說,團隊基于Qwen2-Math-72B訓練一個數學專用的獎勵模型,將獎勵信號與正誤判斷信號結合作為學習標簽,再通過拒絕采樣構建監督微調(SFT)數據,最后在SFT模型基礎上使用GRPO方法優化。

在MATH數據集上的零樣本測試顯示,1.5B的Instruct就能取得70%的準確率,比70B的Llama 3.1還高

圖片

此外,研究團隊還引入了難度更大的OlympiadBench、CollegeMath和英譯版高考試題等更困難的測試集。

作者讓Qwen2-Math采用了貪心(greedy)、RM@8和Maj@8三種策略,結果無論是哪一種,Qwen2-Math的成績全都超過了同規模的Llama 3.1。

中文數據集方面,Qwen2-Math還挑戰了今年最新的中高考試題,與Llama 3.1相比優勢十分明顯。

圖片

值得一提的是,為了減少測試成績當中的“水分”,千問團隊專門從訓練數據集中去除了所有和測試集重疊的部分

而且除了精確匹配,還運用了更嚴格的13-gram去重策略,只要最長公共序列的比率應大于0.6就會被去除。

后訓練的過程也是如此,涉及的數據集,甚至測試成績中沒展示的Aqua、SAT Math,全都被從數據當中剔除。

另外,Qwen2-Math-Instruct已經具備了解決一些簡單的競賽級試題的能力。

比如在AIME 24的30道題當中,Qwen2-Math-72B-Instruct用rm@256策略能夠做對11道

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo這些先進模型都只能做對一兩道。

而且最小的1.5B版本也能在rm@256的條件下做對五道題,已經超過了這三家模型。

另外,Gemini 1.5 Pro有一個專門針對數學任務的版本,但也只能做對七八道題目,Qwen2-Math-72B-Instruct是第一個做對的題目數量達到兩位數的模型

圖片

在官方文檔中,千問團隊也展示了一些示例,比如奧賽級數學測試集Math Odyssey當中有這樣一道題目。

這道題目涉及到組合數學和圖論,具體又包括了完全圖、二部圖等概念。

此外還需要理解如何將這些概念應用于特定性質結構的構建,需要較強的抽象思維能力和對圖論結構的深刻理解。

圖片

Qwen2-Math的解決方案是這樣的,從中可以看出確實是運用到了圖論方法。

最終,Qwen2-Math正確地回答了這道題目。

圖片

△中文為機翻,僅供參考

不過,目前發布的Qwen2-Math主要針對英文場景,中英雙語版本將會在之后推出。

另外,根據Qwen2-Math的許可協議,該模型對大部分用戶來說可以免費商用,但對于72B版本,如果每月活躍用戶數超過1億,就需要向千問團隊申請許可了。

圖片

項目主頁:https://qwenlm.github.io/zh/blog/qwen2-math/

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-08-14 12:54:46

2024-09-06 13:00:29

2024-12-13 14:03:44

模型訓練AI

2024-06-11 07:03:00

大模型開源Qwen2

2024-05-14 11:29:15

2024-11-12 14:00:00

AI編程

2025-05-26 08:33:00

2024-06-05 13:09:26

2023-12-04 09:55:58

AI大模型

2024-08-30 14:35:00

2023-04-07 14:01:18

ChatGPT人工智能

2024-10-16 15:07:57

2024-09-06 13:31:31

2025-06-06 14:17:11

模型訓練AI

2024-12-26 07:10:00

2024-05-09 08:33:33

2024-05-15 17:34:15

2024-12-19 09:00:00

模型數學訓練

2023-10-31 15:26:02

阿里云通義千問
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久免费高清 | 在线免费小视频 | 亚洲网站在线观看 | 欧美一区二区三区视频在线观看 | 国产一区二区黑人欧美xxxx | 欧美不卡一区二区三区 | 久久国产99 | 在线观看视频91 | 先锋资源网 | 玖玖视频国产 | av天天看 | 亚洲91av| 亚洲一二三区精品 | 精品亚洲一区二区三区 | 精品久久久久久亚洲综合网 | 午夜电影在线播放 | 精品国产区| 伊人久久综合 | 国产小视频精品 | 国产欧美精品一区二区三区 | 色视频在线播放 | 精品免费视频 | 91精品一区 | 91精品国产综合久久久久久丝袜 | 欧美成人a | 在线午夜| 蜜桃视频成人 | 一区二区高清 | 国产激情视频在线 | 亚洲风情在线观看 | 欧美一区二区三区四区五区无卡码 | 国产伦精品一区二区三区精品视频 | 97免费在线观看视频 | 91一区二区 | 在线观看成年视频 | 国产在线观看一区 | 午夜影视大全 | 成人在线免费观看av | 日韩成人在线视频 | 日本人做爰大片免费观看一老师 | 91秦先生艺校小琴 |