成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!

原創 精選
人工智能
昨天看外媒的報道說,R1帶火了消費級顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因為DeepSeek的模型不再需要高端AI芯片,普通消費級產品就能滿足運行需求。那么QwQ-32B這波震撼之余,可能帶貨的就是M4 Max的蘋果電腦了。

編輯 | 伊風

太震撼了。阿里直接扔了一張王炸!

QwQ-32B,一個參數量如此小的小模型,居然追平了671B的DeepSeek-R1??!

這也太卷了,看看他們給的數據,真的給人看麻了:

圖片圖片

這個模型到底小到什么概念呢?評論區網友在用了一臺配置M4 Max芯片的蘋果電腦就跑起來了。

網友本人直呼震撼的程度!

小模型還有個震撼而實用的優點,價格真的低。API成本才R1的十分之一!

圖片圖片

一向大方的通義這次又是上線即開源,評論區一看到是Apache 2.0許可證,就開始感謝大自然的饋贈了。這是官方給的一系列鏈接:

博客:https://qwenlm.github.io/blog/qwq-32b

HF:https://huggingface.co/Qwen/QwQ-32B

Qwen 聊天室(網頁試用):https://chat.qwen.ai

模型部署工具ollama也是連夜更新,緊急上線了QwQ-32B,還艾特了通義的兩位大佬表示感謝。

圖片圖片

有趣的是,追蹤到Binyuan Hui的推特,發現他的置頂是一張梗圖“Goodbye ChatGPT,Hello Qwen Chat”。

圖片圖片

國產大模型完全有底氣對ChatGPT說一聲再見了。還記得GPT-4.5推出時,那種普遍覺得乏味、失望的氛圍,人們越來越認識到,傳統的那套訓練技術玩的“大力出奇跡”似乎已經走向了盡頭。

讀了QwQ-32B的博客,我們發現:這次又是強化學習(RL)立大功了!

1.QwQ-32B的煉成:強化學習還有多少驚喜?

從阿里的技術博客我們能了解到兩點:1.強化學習擴展依然是這次性能飛躍的重中之重 2.這個方向還有很長的路能走!

在具體的訓練上,通義團隊分了兩個階段去做RL訓練。

第一階段,是從冷啟動檢查點(指模型已經過了冷啟動訓練階段,檢查點相當于“存檔”)開始,實施了一種基于結果獎勵的強化學習(RL)擴展方法。

這里有兩個突破值得關注:首先,在初期階段,有特別針對數學和編程任務進行了RL擴展,相當于對強推理比較重要的領域專門“補課”;其次,不同于傳統的獎勵模型,通義團隊采用了一個數學問題的準確性驗證器來確保最終解答的正確性,并使用代碼執行服務器來評估生成的代碼是否能成功通過預定義的測試用例。

然后就看到隨著訓練的持續,模型性能在數學和編程領域穩定拉升。

第二階段,是旨在提升通用能力的RL訓練。他們在這個過程中,采取的是通用獎勵模型的獎勵和一些基于規則的驗證器。

通義團隊說,他們發現:“通過少量步驟的訓練,其他一般能力(如指令跟隨、人類偏好對齊、智能體性能等)得到了提升,同時數學和編程能力并未出現顯著下降?!边@句話的分量大家都能懂……大模型訓練經常是只能顧一頭,沒有明顯的性能折損大大驗證了這個策略的有效性。

通義也在博客寫了未來方向:通過這一歷程,我們不僅見證了擴展強化學習(RL)的巨大潛力,也認識到了預訓練語言模型尚未開發的可能性。 

看來新的Scaling Law真的會在后訓練階段了!

2.網友實測:本地人工智能時代來臨!

一位進行了實測,發現QwQ-32B 在筆記本電腦上運行得相當絲滑。

在這里,它在裝有 MLX 的 M4 Max 上運行良好。它的 8k 代幣長思考過程的一個片段:

圖片圖片

另一位網友采用本地部署,推斷了一個比較復雜的推理題目:

有兩座房子,從左到右依次編號為1到2。 每間房子都住著不同的人。 每所房子都有一個獨特的屬性,分別代表以下特征:每個人都有一個獨特的名字:Arnold, Eric;每個人都擁有獨特的汽車型號:ford f150, tesla model 3;人們飼養獨特的動物:貓、馬。

線索:1. 埃里克在擁有特斯拉 Model 3 的人的正前方左邊。養馬的人在第一間房子里。

圖片圖片

QwQ-32B僅用了40s的思考時間就給出了正確答案。

評論區說:這是真正的本地人工智能力量!

圖片圖片

也有人表示:太遺憾了!你們這些人干嘛在奧特曼要開源的時候投票給o3類似模型???(另一個選項是手機可跑的端側模型)

圖片圖片

寫道這里不得不吐槽一句,OpenAI的開源是真慢啊,預熱了一下又沒影了。

圖片圖片

4.寫在最后:算力不再成為問題

昨天看外媒的報道說,R1帶火了消費級顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因為DeepSeek的模型不再需要高端AI芯片,普通消費級產品就能滿足運行需求。

那么QwQ-32B這波震撼之余,可能帶貨的就是M4 Max的蘋果電腦了。

從最初的龐然大物發展到可以家用,計算機走了幾十年的時間。從GPT-3發布后的不到五年中,我們就有了在筆電上能run起來的超強模型。

然后終將有一天,我們會在手機上部署更強悍更輕量的模型。

就像一位網友所說:

哦,我的天哪,現在每個人都會在接下來的兩周里討論QwQ-32B,DeepSeek 也會準備好另一個模型,然后 OpenAI 將別無選擇,只能推出 ChatGPT 5,在 AGI 之前這一切都不會停止。

圖片圖片

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://m.ekrvqnd.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2025-03-07 08:30:00

2025-03-06 08:11:25

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-06 09:55:49

2025-03-06 10:14:39

2025-04-03 15:57:48

2025-04-27 09:19:00

強化學習模型AI

2025-03-07 08:50:03

2025-03-06 17:29:21

2025-04-11 12:10:33

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-03-27 10:28:32

2025-06-18 02:30:00

推理能力強化學習大語言模型

2025-02-08 17:47:08

2025-04-09 09:41:43

2025-04-14 09:45:00

2025-05-28 11:46:52

強化學習模型AI

2025-04-09 09:15:00

數據模型AI

2025-06-11 14:28:34

SOTAQwenR1
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产色99精品9i| 国产亚洲一区精品 | 九九在线视频 | 亚洲午夜一区二区 | 国产成人精品一区二区三区网站观看 | 国产japanhdxxxx麻豆 | 999热在线视频 | 91正在播放 | 日韩av美女电影 | 国产精品久久久久久亚洲调教 | 亚洲视频二区 | 九一在线 | 97国产精品视频人人做人人爱 | 亚洲精品乱码久久久久久久久久 | 欧美成视频 | 欧美成人h版在线观看 | 99久久视频| 在线第一页 | 国产精品久久久久永久免费观看 | 亚洲激情视频在线 | 欧美一区二区大片 | 成人在线观看免费 | 亚洲成人午夜电影 | 国产成人精品一区二区三区在线观看 | 亚洲国产一区二区视频 | 国产欧美精品一区二区三区 | 欧美一区二区大片 | 人人擦人人干 | 精品国产乱码久久久久久影片 | 午夜丰满少妇一级毛片 | 欧美日韩高清一区 | 国产婷婷 | 国产极品粉嫩美女呻吟在线看人 | 国产成人精品午夜视频免费 | www.日韩高清 | 国产一区二区电影 | 在线一区| 一区二区福利视频 | 三级黄视频在线观看 | 天天操天天舔 | 亚洲日韩第一页 |