阿里重磅開源QwQ-32B：自我思考、糾正，數學能力擊敗o1模型

Aceryt

發布于 2024-11-28 09:59

瀏覽

0收藏

阿里巴巴重磅開源了新模型——QwQ-32B-Preview。

QwQ-32B的主要特點就是推理很強，可以給出很長的透明化推理流程，這與國內DeepSeek前不久剛發布的R1-Lite很相似。

尤其是在數學、代碼以及各種復雜推理任務上，QwQ-32B可以生成數萬字的推理流程，讓用戶深度了解模型生成內容的全過程。

阿里重磅開源QwQ-32B：自我思考、糾正，數學能力擊敗o1模型-AI.x社區

開源地址：https://huggingface.co/Qwen/QwQ-32B-Preview

Github：https://github.com/QwenLM/Qwen2.5

在線demo：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

根據公開的測試數據顯示，QwQ-32B在GPQA，一個研究生級別的“谷歌證明”問答基準；AIME，美國邀請數學評估，它測試數學問題解決能力，涉及算術、代數、計數、幾何、數論以及概率等中學數學主題。

MATH-500，一個全面測試數學問題解決能力的綜合性數據集，以及LiveCodeBench現實世界編程場景中評估代碼生成和問題解決能力的挑戰性基準的測試中表現非常出色。

例如，QwQ-32B在GPQA的評分達到65.2，超過了o1-mini、GPT-4o和Claude3.5 Sonnet，僅次于o1- Preview。

在MATH-500測試中拿下了90.6的最高分，超過了o1- Preview、o1-mini、GPT-4o、Claude3.5 Sonnet以及阿里之前開源的Qwen2.5-72B，擁有非常強的數學能力。

而在LiveCodeBench中也拿下了50的高分，僅次于o1模型，大幅度領先GPT-4o、Claude3.5 Sonnet這倆閉源模型。

阿里重磅開源QwQ-32B：自我思考、糾正，數學能力擊敗o1模型-AI.x社區

根據在線demo我們測試了一下QwQ-32B，例如，問個經典問題，9.11和9.9哪個大。

QwQ-32B：9.11和9.9，哪個大呢？我得想一想。首先，這兩個數字都以9開頭，然后有小數點，后面跟著一些數字。9.11是9點11，而9.9是9點9。我要比較它們的大小。

我知道，在小數比較中，先看整數部分，如果整數部分相同，再比較小數部分。這里，兩個數字的整數部分都是9，所以需要比較小數部分。

9.11的小數部分是0.11，而9.9的小數部分是0.9。現在比較0.11和0.9哪個大。

0.11是11分之一百，而0.9是90分之一百。很明顯，90大于11，所以0.9大于0.11。

因此，9.9大于9.11。

不過，我再想想， maybe我哪里錯了。有時候，特別是看日期或者其它什么的時候，9.11可能是九月十一日，而9.9是九月九日。但在這里，題目是9.11和9.9哪個大，看起來像是小數比較。

或者，也許9.11是9又11分之一，但那應該是9 + 11/100 = 9.11，還是小數形式。

總之，按照小數比較規則，9.9更大。

對，我確定是9.9大于9.11。

很清晰的推理流程，并給出了準確答案。

阿里重磅開源QwQ-32B：自我思考、糾正，數學能力擊敗o1模型-AI.x社區

阿里表示，QwQ-32B還處于預覽版狀態有很多局限性，包括語言切換問題，模型可能在回答中混合使用不同語言，影響表達的連貫性。

QwQ-32B-Preview在數學和編程領域表現出色，但在其他領域仍有提升空間。模型性能會隨任務的復雜度和專業程度而波動，正通過持續優化，努力提升模型的綜合能力。

推理循環，在處理復雜邏輯問題時，模型偶爾會陷入遞歸推理模式，在相似思路中循環。

這種行為雖然反映了模型試圖全面分析的努力，但可能導致冗長而不夠聚焦的回答。

即便是有這些局限性，這對于開源領域來說都是一次非常大的進步。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/Me7zmiQTBZh2VnV1TZWePA??

標簽

模型

開源

贊

回復

舉報

回復

相關推薦

剛剛，OpenAI發布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 2866瀏覽 ? 0回復
OpenAI o1模型推理能力大幅提升的背后：重復采樣如何提升AI推理能力

Syrupup ? 3933瀏覽 ? 0回復
OpenAI o1引發的思維鏈思考：思維鏈提示啟發大模型推理

angel ? 4062瀏覽 ? 0回復
被神化的o1模型，規劃能力到底如何？

大語言模型論文跟蹤 ? 3106瀏覽 ? 0回復
擊敗GPT-4o、僅次于o1！英偉達重磅開源超強大模型--Nemotron

Aceryt ? 3386瀏覽 ? 0回復
重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術棧 ? 2313瀏覽 ? 0回復
o1快慢思考的風又吹到了Agent！

PaperAgent ? 3187瀏覽 ? 0回復
VLM版o1超越一眾開源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 2871瀏覽 ? 0回復
o1的規劃能力如何？LRM是未來嗎？

探索AGI ? 2206瀏覽 ? 0回復
阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費

51CTO技術棧 ? 3146瀏覽 ? 0回復
阿里巴巴Qwen團隊發布QwQ-32B-Preview：包含320億參數的開放模型，專為解決高級推理任務而設計

Halo咯咯 ? 5143瀏覽 ? 0回復
小模型界o1來了：微軟推出Phi-4，數學推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個重要推斷

51CTO技術棧 ? 2532瀏覽 ? 0回復
大語言模型o1慢思考推理系統的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 4119瀏覽 ? 0回復
8卡32B模型超越o1預覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式

輕薄滴假象 ? 2226瀏覽 ? 0回復
s1-32B 模型：超越 o1-preview，一起探索其原因

AI論文解讀 ? 2259瀏覽 ? 0回復
阿里開源QwQ-32B，性能與Deepseek R1持平。一個擁有320億參數的全新推理模型

Halo咯咯 ? 2882瀏覽 ? 0回復
阿里QwQ-32B開源引爆AI效率革命：單卡運行、成本降60倍，國產芯片突圍AGI

墨風如雪小站 ? 3610瀏覽 ? 0回復
QwQ-32B 大戰 DeepSeek-R1：小參數量模型能否逆襲？

Halo咯咯 ? 3471瀏覽 ? 0回復
剛剛，Qwen3強勢登頂，成開源新王！國內首個混合推理模型，235B擊敗R1、o1!源神火力全開

51CTO技術棧 ? 2149瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

阿里重磅開源QwQ-32B：自我思考、糾正，數學能力擊敗o1模型

目錄