成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法

發(fā)布于 2024-6-26 09:42
瀏覽
0收藏

自O(shè)penAI的Q項目曝光后,業(yè)內(nèi)相關(guān)討論始終層出不窮。 據(jù)現(xiàn)有信息匯總,Q項目被視作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大嘗試,有望在包括數(shù)學(xué)問題解決能力、自主學(xué)習(xí)和自我改進等多個層面對人工智能技術(shù)帶來革新性突破。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

(英偉達(dá)科學(xué)家Jim Fan、圖靈獎得主Yann LeCun等參與討論OpenAI的Q*實現(xiàn)方式) 圖片

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

(Meta科學(xué)家田淵棟則認(rèn)為Q是Q-learning和A的結(jié)合,且天然地適合推理任務(wù),尤其在數(shù)

學(xué)推理方面)


不過迄今為止OpenAI沒有公開關(guān)于Q算法的具體細(xì)節(jié),其效果究竟如何我們并不得而知。 然而就在近日,一篇名為《Q: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的論文在AI圈內(nèi)引發(fā)了不小的震蕩。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

論文鏈接:??https://arxiv.org/abs/2406.14283??


論文中提出的Q算法不僅能夠幫助小模型達(dá)到參數(shù)量比其大數(shù)十倍、甚至上百倍模型的推理能力,大幅提升了小模型的性能,還顯著降低了計算資源的需求。


最值得關(guān)注的是,這篇論文竟然出自中國團隊之手——由顏水成教授團隊攜手新加坡南洋理工大學(xué)團隊共同發(fā)布!


根據(jù)實驗結(jié)果,Q成功幫助現(xiàn)有開源模型在GSM8K、MATH和MBPP數(shù)據(jù)集上取得性能飛躍,評分分別超越了ChatGPT和Gemini Ultra。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

(Q*在AI圈內(nèi)引發(fā)熱議)


百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

(外網(wǎng)網(wǎng)友直呼「中國AI趕上來了!」)


在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》論文中,研究人員首先將大語言模型的推理軌跡分解為若干個狀態(tài)。


對于每一個狀態(tài),參考DeepCubeA中的設(shè)計,通過將定義Path Cost的g(s_t)函數(shù)和定義Accumulated Reward的Q*(s_t, a_t)集成到同一個f(s_t)函數(shù)內(nèi),實現(xiàn)了對歷史狀態(tài)收益和未來期望收益的綜合考慮。


最后利用A搜索算法對狀態(tài)進行最佳優(yōu)先搜索,實現(xiàn)了對復(fù)雜推理任務(wù)的全盤規(guī)劃,從而提升開源模型在推理任務(wù)上的性能。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)


其中g(shù)(s_t)表示當(dāng)前軌跡中的多個歷史狀態(tài),既{s1,...,s_t},的聚合收益。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)


具體g(s_t)的函數(shù)形式可以通過人為定義,例如判斷當(dāng)前代碼是否符合語法規(guī)則等,或者通過構(gòu)建 Process Reward Model(PRM)進行監(jiān)督學(xué)習(xí)得到;g(s_t)中的聚合方式可以為求和,最大值,最小值等。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

為了獲得狀態(tài)-動作對(s_t, a_t)的最優(yōu)Q值以實現(xiàn)規(guī)劃,研究人員在當(dāng)前LLM策略生成的數(shù)據(jù)上通過監(jiān)督學(xué)習(xí)的方式訓(xùn)練了一個代理Q值模型Q。


百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)


實驗結(jié)果表明,顏水成團隊本次所提出的Q框架,可以顯著地提升LLM的推理能力:

  • 在GSM8K數(shù)據(jù)集上,Q幫助Llama-2-7b提升至80.8%的準(zhǔn)確率,超越了ChatGPT;
  • 在MATH數(shù)據(jù)集上,Q幫助DeepSeek-Math-7b提升至55.4%的準(zhǔn)確率,超越了Gemini Ultra;
  • 在MBPP數(shù)據(jù)集上,Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準(zhǔn)確率,縮小了與GPT-4的編程水平差距。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

研究證明,Q能夠幫助參數(shù)量僅為7b的小模型達(dá)到參數(shù)量比其大數(shù)十倍甚至百倍模型的推理能力,大幅提升模型的性能,并顯著降低了計算資源的需求。


顏水成團隊表示,目前,Q的研究尚在初級階段,算法在各個環(huán)節(jié)還有進一步的改進空間。未來,團隊會繼續(xù)深入此項研究,不斷提升國產(chǎn)開源模型推理能力,打破OpenAI閉源封鎖,為人工智能前沿技術(shù)發(fā)展帶來全新可能。


本文轉(zhuǎn)自 新智元,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/5zaE62vFQg-v_gx2o6Dmdg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美亚洲另类丝袜综合网动图 | 一区二区视频在线 | 精产国产伦理一二三区 | 免费h在线 | 国产精品九九九 | 古装三级在线播放 | 一区二区三区四区av | 一区二区精品在线 | 91色综合| 拍真实国产伦偷精品 | 亚洲 中文 欧美 日韩 在线观看 | 中文字幕福利视频 | 欧美久久久久久 | 欧美一级在线观看 | 日韩在线播放视频 | 精品亚洲一区二区三区四区五区高 | 久久久一区二区 | 亚洲+变态+欧美+另类+精品 | 在线毛片网 | 91资源在线 | 国产日产久久高清欧美一区 | 亚洲精品免费观看 | 秋霞av国产精品一区 | 精品视频一区二区 | 中文字幕高清免费日韩视频在线 | 亚洲女人天堂成人av在线 | 国产精品91视频 | 射久久| 欧美另类视频在线 | 国产精品国产三级国产aⅴ入口 | 在线看片网站 | 久久久久久一区 | 91精品在线播放 | 毛片久久久 | 国产小视频在线观看 | 国产精品久久久久久久久久久新郎 | 成人精品一区亚洲午夜久久久 | 欧美久久视频 | 国产成人精品一区二区三 | 国产精品日韩欧美一区二区 | 91天堂网 |