成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<code id="m6o0e"><rt id="m6o0e"></rt></code>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法

發(fā)布于 2024-6-26 09:42

瀏覽

0收藏

自O(shè)penAI的Q項目曝光后，業(yè)內(nèi)相關(guān)討論始終層出不窮。據(jù)現(xiàn)有信息匯總，Q項目被視作OpenAI在探索人工通用智能（Artificial General Intelligence, AGI）道路上的一次重大嘗試，有望在包括數(shù)學(xué)問題解決能力、自主學(xué)習(xí)和自我改進等多個層面對人工智能技術(shù)帶來革新性突破。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

（英偉達(dá)科學(xué)家Jim Fan、圖靈獎得主Yann LeCun等參與討論OpenAI的Q*實現(xiàn)方式）圖片

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

（Meta科學(xué)家田淵棟則認(rèn)為Q是Q-learning和A的結(jié)合，且天然地適合推理任務(wù)，尤其在數(shù)

學(xué)推理方面）

不過迄今為止OpenAI沒有公開關(guān)于Q算法的具體細(xì)節(jié)，其效果究竟如何我們并不得而知。然而就在近日，一篇名為《Q: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的論文在AI圈內(nèi)引發(fā)了不小的震蕩。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

論文鏈接：??https://arxiv.org/abs/2406.14283??

論文中提出的Q算法不僅能夠幫助小模型達(dá)到參數(shù)量比其大數(shù)十倍、甚至上百倍模型的推理能力，大幅提升了小模型的性能，還顯著降低了計算資源的需求。

最值得關(guān)注的是，這篇論文竟然出自中國團隊之手——由顏水成教授團隊攜手新加坡南洋理工大學(xué)團隊共同發(fā)布！

根據(jù)實驗結(jié)果，Q成功幫助現(xiàn)有開源模型在GSM8K、MATH和MBPP數(shù)據(jù)集上取得性能飛躍，評分分別超越了ChatGPT和Gemini Ultra。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

（Q*在AI圈內(nèi)引發(fā)熱議）

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

（外網(wǎng)網(wǎng)友直呼「中國AI趕上來了！」）

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》論文中，研究人員首先將大語言模型的推理軌跡分解為若干個狀態(tài)。

對于每一個狀態(tài)，參考DeepCubeA中的設(shè)計，通過將定義Path Cost的g(s_t)函數(shù)和定義Accumulated Reward的Q*(s_t, a_t)集成到同一個f(s_t)函數(shù)內(nèi)，實現(xiàn)了對歷史狀態(tài)收益和未來期望收益的綜合考慮。

最后利用A搜索算法對狀態(tài)進行最佳優(yōu)先搜索，實現(xiàn)了對復(fù)雜推理任務(wù)的全盤規(guī)劃，從而提升開源模型在推理任務(wù)上的性能。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

其中g(shù)(s_t)表示當(dāng)前軌跡中的多個歷史狀態(tài)，既{s1,...,s_t}，的聚合收益。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

具體g(s_t)的函數(shù)形式可以通過人為定義，例如判斷當(dāng)前代碼是否符合語法規(guī)則等，或者通過構(gòu)建 Process Reward Model（PRM）進行監(jiān)督學(xué)習(xí)得到；g(s_t)中的聚合方式可以為求和，最大值，最小值等。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

為了獲得狀態(tài)-動作對(s_t, a_t)的最優(yōu)Q值以實現(xiàn)規(guī)劃，研究人員在當(dāng)前LLM策略生成的數(shù)據(jù)上通過監(jiān)督學(xué)習(xí)的方式訓(xùn)練了一個代理Q值模型Q。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

實驗結(jié)果表明，顏水成團隊本次所提出的Q框架，可以顯著地提升LLM的推理能力：

在GSM8K數(shù)據(jù)集上，Q幫助Llama-2-7b提升至80.8%的準(zhǔn)確率，超越了ChatGPT；
在MATH數(shù)據(jù)集上，Q幫助DeepSeek-Math-7b提升至55.4%的準(zhǔn)確率，超越了Gemini Ultra;
在MBPP數(shù)據(jù)集上，Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準(zhǔn)確率，縮小了與GPT-4的編程水平差距。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學(xué)發(fā)布Q*算法-AI.x社區(qū)

研究證明，Q能夠幫助參數(shù)量僅為7b的小模型達(dá)到參數(shù)量比其大數(shù)十倍甚至百倍模型的推理能力，大幅提升模型的性能，并顯著降低了計算資源的需求。

顏水成團隊表示，目前，Q的研究尚在初級階段，算法在各個環(huán)節(jié)還有進一步的改進空間。未來，團隊會繼續(xù)深入此項研究，不斷提升國產(chǎn)開源模型推理能力，打破OpenAI閉源封鎖，為人工智能前沿技術(shù)發(fā)展帶來全新可能。

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/5zaE62vFQg-v_gx2o6Dmdg??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

華為諾亞頻域LLM「帝江」：僅需1/50訓(xùn)練成本，7B模型媲美LLaMA，推理加速5倍

輕薄滴假象 ? 3186瀏覽 ? 0回復(fù)
7B超越百億級，北大開源aiXcoder-7B最強代碼大模型，企業(yè)部署最佳選擇

輕薄滴假象 ? 4826瀏覽 ? 0回復(fù)
Meta無限長文本大模型來了：參數(shù)僅7B，已開源

輕薄滴假象 ? 3058瀏覽 ? 0回復(fù)
擴散模型中進行條件插值？AID:無需訓(xùn)練，保證一致、平滑和保真度(新加坡國立&南洋理工)

angel ? 4881瀏覽 ? 0回復(fù)
大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.3w瀏覽 ? 0回復(fù)
AlphaGo核心算法增強，7B模型數(shù)學(xué)能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 3169瀏覽 ? 0回復(fù)
電子科大、同濟大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA：引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力

sbf_2000 ? 5208瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3923瀏覽 ? 0回復(fù)
阿里巴巴達(dá)摩院、新加坡科技設(shè)計大學(xué)和南洋理工大學(xué)聯(lián)合團隊提升AI多步推理能力的新方法

xuxiangda ? 2834瀏覽 ? 0回復(fù)
Meta AI發(fā)布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%

Halo咯咯 ? 2796瀏覽 ? 0回復(fù)
?顏水成團隊新作:AI手機迎來重大技術(shù)進展！Meissonic:讓移動成像技術(shù)飛躍

angel ? 2033瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 4942瀏覽 ? 0回復(fù)
清華團隊靠強化學(xué)習(xí)讓 7B 模型打敗 GPT-4o 數(shù)學(xué)推理

Aceryt ? 2637瀏覽 ? 0回復(fù)
基于CogVideoX-2B，視覺一致和語義對齊超越最新SOTA！南洋理工等發(fā)布RepVideo

angel ? 2709瀏覽 ? 0回復(fù)
1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團隊提出NutWorld:渲染速度可達(dá)450FPS

angel ? 2511瀏覽 ? 0回復(fù)
MedRAG：利用知識圖譜引導(dǎo)推理提升醫(yī)療Copilot的RAG能力 - 新加坡南洋理工等

知識圖譜科技 ? 4455瀏覽 ? 0回復(fù)
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 2369瀏覽 ? 0回復(fù)
千億模型做不到的事，7B小模型實現(xiàn)了？阿里這次開源有點狠！

蜂耘網(wǎng)iphoneyun ? 1915瀏覽 ? 0回復(fù)
開源代碼推理模型，32B、14B、7B各顯神通

Halo咯咯 ? 1603瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：快手「可靈」再進化！視頻續(xù)寫可達(dá)3分鐘讓全球網(wǎng)友炸鍋

下一篇：畫皮走進現(xiàn)實？微笑機器人臉由活體人類皮膚細(xì)胞打造，你怕了沒

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：欧美亚洲另类丝袜综合网动图 | 一区二区视频在线 | 精产国产伦理一二三区 | 免费h在线 | 国产精品九九九 | 古装三级在线播放 | 一区二区三区四区av | 一区二区精品在线 | 91色综合| 拍真实国产伦偷精品 | 亚洲中文欧美日韩在线观看 | 中文字幕福利视频 | 欧美久久久久久 | 欧美一级在线观看 | 日韩在线播放视频 | 精品亚洲一区二区三区四区五区高 | 久久久一区二区 | 亚洲+变态+欧美+另类+精品 | 在线毛片网 | 91资源在线 | 国产日产久久高清欧美一区 | 亚洲精品免费观看 | 秋霞av国产精品一区 | 精品视频一区二区 | 中文字幕高清免费日韩视频在线 | 亚洲女人天堂成人av在线 | 国产精品91视频 | 射久久| 欧美另类视频在线 | 国产精品国产三级国产aⅴ入口 | 在线看片网站 | 久久久久久一区 | 91精品在线播放 | 毛片久久久 | 国产小视频在线观看 | 国产精品久久久久久久久久久新郎 | 成人精品一区亚洲午夜久久久 | 欧美久久视频 | 国产成人精品一区二区三 | 国产精品日韩欧美一区二区 | 91天堂网 |

<object id="6i6k6"><sup id="6i6k6"></sup></object>

<em id="6i6k6"></em>

<input id="6i6k6"><strike id="6i6k6"></strike></input>

<table id="6i6k6"></table>