成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里重磅開源QwQ-32B:自我思考、糾正,數學能力擊敗o1模型

發布于 2024-11-28 09:59
瀏覽
0收藏

阿里巴巴重磅開源了新模型——QwQ-32B-Preview。


QwQ-32B的主要特點就是推理很強,可以給出很長的透明化推理流程,這與國內DeepSeek前不久剛發布的R1-Lite很相似。


尤其是在數學、代碼以及各種復雜推理任務上,QwQ-32B可以生成數萬字的推理流程,讓用戶深度了解模型生成內容的全過程。

阿里重磅開源QwQ-32B:自我思考、糾正,數學能力擊敗o1模型-AI.x社區

開源地址:https://huggingface.co/Qwen/QwQ-32B-Preview

Github:https://github.com/QwenLM/Qwen2.5

在線demo:https://huggingface.co/spaces/Qwen/QwQ-32B-preview


根據公開的測試數據顯示,QwQ-32B在GPQA,一個研究生級別的“谷歌證明”問答基準;AIME,美國邀請數學評估,它測試數學問題解決能力,涉及算術、代數、計數、幾何、數論以及概率等中學數學主題。


MATH-500,一個全面測試數學問題解決能力的綜合性數據集,以及LiveCodeBench現實世界編程場景中評估代碼生成和問題解決能力的挑戰性基準的測試中表現非常出色。


例如,QwQ-32B在GPQA的評分達到65.2,超過了o1-mini、GPT-4o和Claude3.5 Sonnet,僅次于o1- Preview。

在MATH-500測試中拿下了90.6的最高分,超過了o1- Preview、o1-mini、GPT-4o、Claude3.5 Sonnet以及阿里之前開源的Qwen2.5-72B,擁有非常強的數學能力


而在LiveCodeBench中也拿下了50的高分,僅次于o1模型,大幅度領先GPT-4o、Claude3.5 Sonnet這倆閉源模型。

阿里重磅開源QwQ-32B:自我思考、糾正,數學能力擊敗o1模型-AI.x社區

根據在線demo我們測試了一下QwQ-32B,例如,問個經典問題,9.11和9.9哪個大。

QwQ-32B:9.11和9.9,哪個大呢?我得想一想。首先,這兩個數字都以9開頭,然后有小數點,后面跟著一些數字。9.11是9點11,而9.9是9點9。我要比較它們的大小。


我知道,在小數比較中,先看整數部分,如果整數部分相同,再比較小數部分。這里,兩個數字的整數部分都是9,所以需要比較小數部分。


9.11的小數部分是0.11,而9.9的小數部分是0.9。現在比較0.11和0.9哪個大。

0.11是11分之一百,而0.9是90分之一百。很明顯,90大于11,所以0.9大于0.11。

因此,9.9大于9.11。


不過,我再想想, maybe我哪里錯了。有時候,特別是看日期或者其它什么的時候,9.11可能是九月十一日,而9.9是九月九日。但在這里,題目是9.11和9.9哪個大,看起來像是小數比較。


或者,也許9.11是9又11分之一,但那應該是9 + 11/100 = 9.11,還是小數形式。

總之,按照小數比較規則,9.9更大。


對,我確定是9.9大于9.11。


很清晰的推理流程,并給出了準確答案。

阿里重磅開源QwQ-32B:自我思考、糾正,數學能力擊敗o1模型-AI.x社區

阿里表示,QwQ-32B還處于預覽版狀態有很多局限性,包括語言切換問題,模型可能在回答中混合使用不同語言,影響表達的連貫性。


QwQ-32B-Preview在數學和編程領域表現出色,但在其他領域仍有提升空間。模型性能會隨任務的復雜度和專業程度而波動,正通過持續優化,努力提升模型的綜合能力。


推理循環,在處理復雜邏輯問題時,模型偶爾會陷入遞歸推理模式,在相似思路中循環。

這種行為雖然反映了模型試圖全面分析的努力,但可能導致冗長而不夠聚焦的回答。


即便是有這些局限性,這對于開源領域來說都是一次非常大的進步。


本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/Me7zmiQTBZh2VnV1TZWePA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 综合久久国产 | 乱码av午夜噜噜噜噜动漫 | 99久久久99久久国产片鸭王 | 国产日韩中文字幕 | 久久精品日产第一区二区三区 | 日日噜噜夜夜爽爽狠狠 | 18性欧美 | 精品国产一区二区三区久久久四川 | 91精品久久久久久久久 | 国产自产21区 | 作爱视频免费观看 | 天堂av资源| 奇米四色影视 | 日韩一级欧美一级 | 国产精品亚洲成在人线 | 久久精品久久精品久久精品 | 国产欧美精品区一区二区三区 | 99精品一区二区三区 | 天堂视频免费 | 成人精品一区亚洲午夜久久久 | 亚洲aⅴ| 在线91 | 欧美精品一区三区 | 夜夜艹天天干 | 中文字幕视频在线 | 成年人在线观看 | 超碰免费在线 | 国产成人99久久亚洲综合精品 | 午夜精品久久久久久不卡欧美一级 | 99精品久久久国产一区二区三 | 成人午夜网站 | 久久久久九九九女人毛片 | 99久久日韩精品免费热麻豆美女 | 一区二区三区播放 | 久久精品久久久久久 | 中文字幕亚洲精品在线观看 | 欧美精品 在线观看 | 久久久日韩精品一区二区三区 | 日韩精品一区二区三区视频播放 | 国产一区二区不卡 | 欧美一区2区三区4区公司 |