阿里重磅開源QwQ-32B:自我思考、糾正,數學能力擊敗o1模型
阿里巴巴重磅開源了新模型——QwQ-32B-Preview。
QwQ-32B的主要特點就是推理很強,可以給出很長的透明化推理流程,這與國內DeepSeek前不久剛發布的R1-Lite很相似。
尤其是在數學、代碼以及各種復雜推理任務上,QwQ-32B可以生成數萬字的推理流程,讓用戶深度了解模型生成內容的全過程。
開源地址:https://huggingface.co/Qwen/QwQ-32B-Preview
Github:https://github.com/QwenLM/Qwen2.5
在線demo:https://huggingface.co/spaces/Qwen/QwQ-32B-preview
根據公開的測試數據顯示,QwQ-32B在GPQA,一個研究生級別的“谷歌證明”問答基準;AIME,美國邀請數學評估,它測試數學問題解決能力,涉及算術、代數、計數、幾何、數論以及概率等中學數學主題。
MATH-500,一個全面測試數學問題解決能力的綜合性數據集,以及LiveCodeBench現實世界編程場景中評估代碼生成和問題解決能力的挑戰性基準的測試中表現非常出色。
例如,QwQ-32B在GPQA的評分達到65.2,超過了o1-mini、GPT-4o和Claude3.5 Sonnet,僅次于o1- Preview。
在MATH-500測試中拿下了90.6的最高分,超過了o1- Preview、o1-mini、GPT-4o、Claude3.5 Sonnet以及阿里之前開源的Qwen2.5-72B,擁有非常強的數學能力。
而在LiveCodeBench中也拿下了50的高分,僅次于o1模型,大幅度領先GPT-4o、Claude3.5 Sonnet這倆閉源模型。
根據在線demo我們測試了一下QwQ-32B,例如,問個經典問題,9.11和9.9哪個大。
QwQ-32B:9.11和9.9,哪個大呢?我得想一想。首先,這兩個數字都以9開頭,然后有小數點,后面跟著一些數字。9.11是9點11,而9.9是9點9。我要比較它們的大小。
我知道,在小數比較中,先看整數部分,如果整數部分相同,再比較小數部分。這里,兩個數字的整數部分都是9,所以需要比較小數部分。
9.11的小數部分是0.11,而9.9的小數部分是0.9。現在比較0.11和0.9哪個大。
0.11是11分之一百,而0.9是90分之一百。很明顯,90大于11,所以0.9大于0.11。
因此,9.9大于9.11。
不過,我再想想, maybe我哪里錯了。有時候,特別是看日期或者其它什么的時候,9.11可能是九月十一日,而9.9是九月九日。但在這里,題目是9.11和9.9哪個大,看起來像是小數比較。
或者,也許9.11是9又11分之一,但那應該是9 + 11/100 = 9.11,還是小數形式。
總之,按照小數比較規則,9.9更大。
對,我確定是9.9大于9.11。
很清晰的推理流程,并給出了準確答案。
阿里表示,QwQ-32B還處于預覽版狀態有很多局限性,包括語言切換問題,模型可能在回答中混合使用不同語言,影響表達的連貫性。
QwQ-32B-Preview在數學和編程領域表現出色,但在其他領域仍有提升空間。模型性能會隨任務的復雜度和專業程度而波動,正通過持續優化,努力提升模型的綜合能力。
推理循環,在處理復雜邏輯問題時,模型偶爾會陷入遞歸推理模式,在相似思路中循環。
這種行為雖然反映了模型試圖全面分析的努力,但可能導致冗長而不夠聚焦的回答。
即便是有這些局限性,這對于開源領域來說都是一次非常大的進步。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
