成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

陶哲軒：通義千問QwQ奧數真厲害，開源大模型頂流

作者：機器之心 2024-12-02 08:00:00

人工智能新聞

據陶哲軒介紹，就在不到一天前有參賽團隊使用 QwQ-32B 的特定實例已經拿到了 18/20 的成績，該模型似乎比之前的開源模型在解決數學競賽問題方面表現得更好。

一個剛發布兩天的開源模型，正在 AI 數學奧林匹克競賽 AIMO 上創造新紀錄。

本周五，知名數學家、加州大學洛杉磯分校教授、菲爾茨獎得主陶哲軒（Terence Tao）介紹了第二屆 AIMO 競賽的最新進展。比賽在數據競賽平臺 Kaggle 上已經持續了一個月，現在有隊伍快要觸發「Early Sharing Prize」的門檻了。

Early Sharing Prize 是為了鼓勵 AIMO 參賽者在比賽早期分享高分模型經驗設立的獎項，需要選手在競賽中第一個獲得 20/50 分，且公開自己的 notebook，獎金為額外的兩萬美元。

據陶哲軒介紹，就在不到一天前有參賽團隊使用 QwQ-32B 的特定實例已經拿到了 18/20 的成績，該模型似乎比之前的開源模型在解決數學競賽問題方面表現得更好。

今年 7 月，陶哲軒在國際數學奧賽 IMO 上給第一屆 AIMO 的獲獎團隊進行了頒獎，分享了自己對 AI 在數學研究中應用范式的思考，也打響了 AIMO 競賽的名聲。

AI 數學奧林匹克競賽 AIMO 的初衷是讓參與者使用 AI 模型解決國際數學難題，這將有助于推動人工智能模型的數學推理能力，并促進前沿知識的發展。

由于大模型技術的快速進步，人們對 AI 解決數學問題的能力寄予厚望，第一屆 AIMO 的獲獎隊伍分獲了 104.8 萬美元的獎金，而現在第二屆，獎池已經上升到了 211.7 萬美元。

AIMO 競賽要求參賽團隊公開發布其代碼、方法、數據和模型參數。剛剛結束的第一屆比賽里大家使用的模型各不相同，包括 Mixtral 8x7b、Gemma、Llama 3 等等，有的來自大廠，有的來自 AI 創業公司，呈現百花齊放的態勢。

而到了這一屆，現在似乎已經變成了 Qwen 系列在刷屏，其他模型偶爾出現：

剛剛發布的 QwQ，還在把開源大模型推向新的高度。

QwQ 的能力也并不僅限于奧數這一個方面，最近社交網絡上也有不少人在夸它的推理能力。

HuggingFace 的產品設計人員也表示：測試了一下 QwQ，結果令人驚嘆：

有人說，QwQ 就是一個在冉冉升起的新神，雖然有時仍會出錯，但令人著迷的就是它的推理路徑，就像給 o1 再來一個巨大的加號。

更有趣的是，有人發現這個模型用于思考的原生語言似乎是中文：

難不成這就是 QwQ 邏輯能力強大的原因之一？無論如何，開源大模型領域的風向，似乎已經變了。

11 月 28 日，阿里云通義團隊發布了全新 AI 推理模型 QwQ-32B-Preview，并同步開源。評測數據顯示，預覽版本的 QwQ 已展現出研究生水平的科學推理能力，在數學和編程方面表現尤為出色，整體推理水平比肩 OpenAI 的 o1。

HuggingFace 開源地址：https://huggingface.co/Qwen/QwQ-32B-Preview
HuggingFace Space 體驗：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

據介紹，QwQ（Qwen with Questions）是通義千問 Qwen 大模型最新推出的實驗性研究模型，也是阿里云首個開源的 AI 推理模型。阿里云通義千問團隊研究發現，當模型有足夠的時間思考、質疑和反思時，其對數學和編程的理解就會深化?；诖?，QwQ 取得了解決復雜問題的突破性進展。

在考察科學問題解決能力的 GPQA 評測集上，QwQ 獲得了 65.2% 的準確率，具備研究生水平的科學推理能力；在涵蓋綜合數學主題的 AIME 評測中，QwQ 以 50% 的勝率證明其擁有解決數學問題的豐富技能；在全面考察數學解題能力的 MATH-500 評測中，QwQ 斬獲 90.6% 的高分，一舉超越了 o1-preview 和 o1-mini；在評估高難度代碼生成的 LiveCodeBench 評測中，QwQ 答對一半的題，在編程競賽題場景中也有出色表現。

另外當面對復雜問題時，QwQ 展現了深度自省的能力，會質疑自身假設，進行深思熟慮的自我對話，并仔細審視其推理過程的每一步。

比如，在經典智力題「猜牌問題」中，QwQ 會通過梳理各方對話并推演現實情況，它像個擅長思考的人一樣，能揣摩「這句話有點 tricky」，反思「等一下，也許我需要更仔細地思考」，最終分析得出正確答案，這似乎是以前沒有 AI 能做到的事情。

面對目前高漲的熱度，通義團隊表示，盡管 QwQ 展現了強大的分析能力，但該模型仍是個供研究的實驗型模型，存在不同語言的混合使用、偶有不恰當偏見、對專業領域問題不了解等局限。隨著研究深入模型迭代，這些問題將逐步得到解決。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：玖玖免费 | 亚洲国产欧美在线 | 日本免费一区二区三区四区 | 开操网 | 91麻豆精品国产91久久久久久 | 五月婷婷婷 | 亚洲三区在线 | 黄色激情毛片 | 亚洲欧美综合 | 国产精品区一区二区三 | 国产精品国产精品国产专区不片 | 日本在线免费 | 欧美日韩国产三级 | 在线观看深夜视频 | 国内精品视频在线观看 | 91免费在线视频 | 国产在线一区二区三区 | 国产黄色免费网站 | 欧美a在线 | 日韩国产在线观看 | 亚洲高清久久 | 99av成人精品国语自产拍 | 久久久看| 91天堂网| 国产午夜一级 | 国产一区二区三区免费视频 | 免费簧片视频 | 久久精品视频12 | 一区二区免费看 | 九九热在线免费视频 | 亚洲精品乱码久久久久久9色 | www.色综合| 怡红院免费的全部视频 | 国产午夜三级一区二区三 | 国产欧美在线一区 | 九九热在线免费观看 | 日本不卡一区二区三区在线观看 | 国产成人区 | 夜夜摸夜夜操 | 91亚洲精品久久久电影 | 成人三级av |