成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

昆侖萬維攜手南洋理工大學(xué)搶發(fā)Q*算法:百倍提升7B模型推理能力

人工智能 新聞
研究證明,Q* 能夠幫助參數(shù)量僅為 7b 的小模型達(dá)到參數(shù)量比其大數(shù)十倍甚至百倍模型的推理能力,大幅提升模型的性能,并顯著降低了計算資源的需求。

自 OpenAI 的 Q* 項目曝光后,引發(fā)業(yè)內(nèi)眾多討論。據(jù)現(xiàn)有信息匯總,Q* 項目被視作 OpenAI 在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大嘗試,有望在包括數(shù)學(xué)問題解決能力、自主學(xué)習(xí)和自我改進(jìn)等多個層面對人工智能技術(shù)帶來革新性突破。

英偉達(dá)科學(xué)家 Jim Fan、圖靈獎得主 Yann LeCun 等參與討論 OpenAI 的 Q* 實(shí)現(xiàn)方式

Meta 科學(xué)家田淵棟則認(rèn)為 Q* 是 Q-learning 和 A* 的結(jié)合,且天然地適合推理任務(wù),尤其在數(shù)學(xué)推理方面

不過迄今為止 OpenAI 沒有公開關(guān)于 Q* 算法的具體細(xì)節(jié),其效果究竟如何我們并不得而知。

昆侖萬維自 Q* 項目曝光以來,一直密切關(guān)注 Q* 的動向,且在第一時間就成立研究小組嘗試開發(fā)自己的 Q* 算法,希望打破 OpenAI 的封鎖,提升現(xiàn)有開源模型的推理能力。

經(jīng)過數(shù)月的嘗試,昆侖萬維攜手新加坡南洋理工大學(xué)成功開發(fā)了一個名為 Q* 的算法,能夠顯著提升現(xiàn)有大模型的推理能力。在 GSM8K 數(shù)據(jù)集上,Q* 幫助 Llama-2-7b 提升至 80.8% 的準(zhǔn)確率,超越了 ChatGPT;在 MATH 數(shù)據(jù)集上,Q* 幫助 DeepSeek-Math-7b 提升至 55.4% 的準(zhǔn)確率,超越了 Gemini Ultra;在 MBPP 數(shù)據(jù)集上,Q* 幫助 CodeQwen1.5-7b-Chat 提升至 77.0% 的準(zhǔn)確率,縮小了與 GPT-4 的編程水平差距。

論文:Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning

論文鏈接:https://arxiv.org/abs/2406.14283

Q* 能夠幫助小模型達(dá)到參數(shù)量比其大數(shù)十倍、甚至上百倍模型的推理能力,這一算法不僅大幅提升了小模型的性能,還顯著降低了計算資源的需求,為人工智能的廣泛應(yīng)用帶來了全新可能,開創(chuàng)了高效智能的新紀(jì)元。

復(fù)雜推理任務(wù)全盤規(guī)劃

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》論文中,研究人員首先將大語言模型的推理軌跡分解為若干個狀態(tài),對于每一個狀態(tài),參考 DeepCubeA 中的設(shè)計,通過將定義 Path Cost 的 g (s_t) 函數(shù)和定義 Accumulated Reward 的 Q*(s_t, a_t) 集成到同一個 f (s_t) 函數(shù)內(nèi),實(shí)現(xiàn)了對歷史狀態(tài)收益和未來期望收益的綜合考慮。最后利用 A* 搜索算法對狀態(tài)進(jìn)行最佳優(yōu)先搜索,實(shí)現(xiàn)了對復(fù)雜推理任務(wù)的全盤規(guī)劃,從而提升開源模型在推理任務(wù)上的性能。

其中 g (s_t) 表示當(dāng)前軌跡中的多個歷史狀態(tài),既 {s1,...,s_t},的聚合收益。

具體 g (s_t) 的函數(shù)形式可以通過人為定義,例如判斷當(dāng)前代碼是否符合語法規(guī)則等,或者通過構(gòu)建 Process Reward Model (PRM) 進(jìn)行監(jiān)督學(xué)習(xí)得到;g (s_t) 中的聚合方式可以為求和,最大值,最小值等。

為了獲得狀態(tài) - 動作對 (s_t, a_t) 的最優(yōu) Q 值以實(shí)現(xiàn)規(guī)劃,研究人員在當(dāng)前 LLM 策略生成的數(shù)據(jù)上通過監(jiān)督學(xué)習(xí)的方式訓(xùn)練了一個代理 Q 值模型圖片。訓(xùn)練過程中的真實(shí)標(biāo)簽圖片可以由三種不同的方式得到,包括離線強(qiáng)化學(xué)習(xí),蒙塔卡羅采樣估計和利用更強(qiáng)大的語言模型補(bǔ)全。

實(shí)驗結(jié)果表明,昆侖萬維本次所提出的 Q* 框架,可以顯著地提升 LLM 的推理能力,在 GSM8K 數(shù)據(jù)集上,Q* 幫助 Llama-2-7b 提升至 80.8% 的準(zhǔn)確率,超越了 ChatGPT;在 MATH 數(shù)據(jù)集上,Q* 幫助 DeepSeek-Math-7b 提升至 55.4% 的準(zhǔn)確率,超越了 Gemini Ultra; 在 MBPP 數(shù)據(jù)集上,Q* 幫助 CodeQwen1.5-7b-Chat 提升至 77.0% 的準(zhǔn)確率,縮小了與 GPT-4 的編程水平差距。

研究證明,Q* 能夠幫助參數(shù)量僅為 7b 的小模型達(dá)到參數(shù)量比其大數(shù)十倍甚至百倍模型的推理能力,大幅提升模型的性能,并顯著降低了計算資源的需求。目前,Q* 的研究尚在初級階段,算法在各個環(huán)節(jié)還有進(jìn)一步的改進(jìn)空間。未來,昆侖萬維會繼續(xù)深入此項研究,不斷提升國產(chǎn)開源模型推理能力,打破 OpenAI 閉源封鎖,為人工智能前沿技術(shù)發(fā)展帶來全新可能。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2010-09-09 14:56:45

信息化建設(shè)郵件安全263企業(yè)郵箱

2025-06-03 08:20:00

2023-07-22 13:30:02

模型視覺

2023-05-11 11:53:35

模型評測

2024-07-12 12:50:46

2024-12-13 14:30:00

AI模型數(shù)據(jù)

2016-07-15 16:59:42

江西云平臺

2023-10-29 22:25:23

模型AI

2025-06-23 09:01:00

2023-06-12 15:34:08

工具圖片

2025-04-07 08:35:00

3DAI生成

2022-03-07 14:10:00

算法模型AI

2023-04-27 15:54:02

模型研究

2013-07-24 15:35:30

思杰

2024-01-26 10:19:00

AI模型

2021-09-23 10:26:36

人臉識別人工智能數(shù)據(jù)

2023-03-13 16:05:03

強(qiáng)化學(xué)習(xí)開源

2025-02-19 14:10:00

AI3D生成

2018-07-09 10:32:27

華為
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 黄色大片视频 | 日本三级电影在线观看视频 | 亚洲国产一 | 欧美aa在线| 亚洲欧美综合精品久久成人 | 国产91在线观看 | 在线色网 | 国产成年人视频 | 色免费看| 日本免费黄色 | 91精品国产一二三 | 日日操夜夜操天天操 | 成人av网站在线观看 | 国产乱xxav| 午夜影院网站 | 成人免费大片黄在线播放 | 亚洲综合三区 | 亚洲国产欧美一区 | 国产丝袜人妖cd露出 | 久久综合狠狠综合久久综合88 | 一道本在线 | 久久亚洲国产精品 | 成人在线中文字幕 | 国产精品久久久久久久久久久久 | 国产日韩久久久久69影院 | 国产精品久久久亚洲 | 国产日韩av一区二区 | 日批日韩在线观看 | 亚洲欧洲一区 | 美女视频一区二区三区 | 精品一区二区三区在线观看国产 | 日本久久一区 | 一本色道久久综合亚洲精品高清 | 亚洲精品视频一区 | 成人精品鲁一区一区二区 | 欧美日韩一区二区电影 | 色影视| 视频二区在线观看 | 欧美www在线观看 | 日本在线免费视频 | 精品国产91乱码一区二区三区 |