成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<small id="nyetb"></small>

<label id="nyetb"><dl id="nyetb"></dl></label>

<code id="nyetb"><dl id="nyetb"></dl></code>

<cite id="nyetb"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

推理模型的必經(jīng)之路-自適應(yīng)推理

發(fā)布于 2025-6-3 06:41

瀏覽

0收藏

自適應(yīng)推理模型的核心就是讓模型自己根據(jù)用戶問題的來判斷是否進(jìn)行推理預(yù)測(cè)。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

Arm存在三種格式：直接回答、短CoT或代碼、長(zhǎng)CoT，同時(shí)引入Ada-GRPO解決傳統(tǒng) GRPO 中的格式崩潰問題。

除了自適應(yīng)模式，Arm還支持另外兩種模式；

指令引導(dǎo)模式，用戶明確強(qiáng)制選擇某一種指定推理格式
共識(shí)引導(dǎo)模式，聚合直接回答、短CoT或代碼三種格式的輸出，當(dāng)答案一致時(shí)，直接返回，否則認(rèn)為任務(wù)較復(fù)雜，切換到Long CoT推理模式。

模型的訓(xùn)練分為兩個(gè)階段，SFT和Ada-GRPO。

第一階段：SFT 推理格式理解

SFT作為冷啟動(dòng)，讓模型可以用各種推理格式解決問題。

直接答案：直接給出答案，不進(jìn)行任何推理鏈

<ANSWER>answer</ANSWER>

短CoT：先進(jìn)行簡(jiǎn)短的推理，然后給出答案

<COT>cot</COT><ANSWER>answer</ANSWER>

代碼：采用基于代碼的推理方式，格式：

<CODE>code</CODE><ANSWER>answer</ANSWER>

長(zhǎng)CoT：涉及更詳細(xì)、迭代的推理過程，例如自我反思和替代方案生成等

<LONG_COT>cot</LONG_COT><ANSWER>answer</ANSWER>

模型訓(xùn)練采用LlamaFactory框架，lora訓(xùn)練，批次為128，學(xué)習(xí)率為 2e-4，采用余弦學(xué)習(xí)率調(diào)度器，6個(gè)epoch，10%步數(shù)預(yù)熱，訓(xùn)練策略 ZeRO-3。

第二階段：Ada-GRPO訓(xùn)練格式選擇

SFT 之后，模型會(huì)了使用多種推理格式進(jìn)行回復(fù)，但無法根據(jù)任務(wù)自適應(yīng)切換的能力，因此提出了自適應(yīng) GRPO，通過格式多樣性獎(jiǎng)勵(lì)機(jī)制，讓模型能夠根據(jù)任務(wù)難度動(dòng)態(tài)地選擇合適的推理格式。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

最后，通過最大化以下目標(biāo)函數(shù)來優(yōu)化模型：

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

結(jié)果

基座模型采用Qwen2.5-Base-3B、7B、14B模型。

SFT數(shù)據(jù)集，使用AQuA-Rat，由于僅存在直接答案和簡(jiǎn)短CoT回答，利用GPT-4o和 DeepSeek-R1分別補(bǔ)充代碼和長(zhǎng)CoT格式，過濾錯(cuò)誤答案后，保留 3K 個(gè)多選題和 7.8K 個(gè)開放問題。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

GPT-4o補(bǔ)充代碼

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

DeepSeek-R1補(bǔ)充長(zhǎng)CoT

RL數(shù)據(jù)集，從簡(jiǎn)單的常識(shí)推理到復(fù)雜的數(shù)學(xué)推理，包括 CommonsenseQA、GSM8K 和 MATH，總共包含 19.8K 條。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

如下表所示，ARM的平均效果下降不到1%，但節(jié)省了超過30%的token。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

同時(shí)，SFT只能讓模型學(xué)會(huì)格式，但沒辦法根據(jù)任務(wù)選擇合適的格式，而GRPO 確實(shí)提高了推理能力，但傾向于依賴長(zhǎng)CoT來解決所有任務(wù)，如下圖所示。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

比較自適應(yīng)模式、指令引導(dǎo)模式、共識(shí)引導(dǎo)模式如下表所示，共識(shí)引導(dǎo)可以提高整體效果，但消耗token也更多。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

驗(yàn)證，自適應(yīng)模式中格式的選擇不是隨機(jī)選擇，與指令引導(dǎo)模式上每種單獨(dú)模式比較，效果均好。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

比較Ada-GRPO和GRPO，如下圖所示，在早期訓(xùn)練步驟中Ada-GRPO由于選擇了次優(yōu)的推理格式，最初在準(zhǔn)確率上落后于GRPO，但最終都收斂到相似的最終準(zhǔn)確率。而Ada-GRPO最終將平均響應(yīng)長(zhǎng)度減少到大約GRPO的一半。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

最后，想說，自適應(yīng)推理應(yīng)該推理模型的必經(jīng)之路，同時(shí)支持強(qiáng)制選擇推理模式也要支持，應(yīng)用上，可以前置的就選擇強(qiáng)制指令，無法判斷的再讓大模型自己自適應(yīng)。

本文轉(zhuǎn)載自??NLP工作站??，作者：NLP工作站

標(biāo)簽

自適應(yīng)推理

已于2025-6-3 11:34:36修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型提示學(xué)習(xí)樣本量有玄機(jī)，自適應(yīng)調(diào)節(jié)方法好

pangguiyu ? 3588瀏覽 ? 0回復(fù)
大模型的條件推理和模態(tài)推理

xuxiangda ? 3443瀏覽 ? 0回復(fù)
ECCV 2024 | 探索離散Token視覺生成中的自適應(yīng)推理策略

輕薄滴假象 ? 2306瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 2568瀏覽 ? 0回復(fù)
關(guān)于自適應(yīng)模態(tài)分解方法

步驚云_32 ? 2882瀏覽 ? 0回復(fù)
NeurIPS'24 基于自適應(yīng)多尺度超圖Transfromer的時(shí)間序列預(yù)測(cè)方法

海因斯DK ? 3927瀏覽 ? 0回復(fù)
解讀 Marco - o1：邁向開放式推理模型的探索與實(shí)踐

AI論文解讀 ? 2893瀏覽 ? 0回復(fù)
大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 4098瀏覽 ? 0回復(fù)
清華&人大：search-o1 讓推理模型具有主動(dòng)能力

鴻煊的學(xué)習(xí)筆記 ? 2189瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動(dòng)語言模型推理效率新高度

風(fēng)云2002_1 ? 1.2w瀏覽 ? 0回復(fù)
如何利用 DeepSeek-R1 本地部署強(qiáng)大的推理模型：從 ChatGPT 風(fēng)格界面到 API 集成

Halo咯咯 ? 3540瀏覽 ? 0回復(fù)
GoRA: 基于梯度驅(qū)動(dòng)的自適應(yīng)低秩微調(diào)方法

頓數(shù)AI ? 2556瀏覽 ? 0回復(fù)
推理模型+Multi-Agent，可能就是Deep Research的全貌！

探索AGI ? 2551瀏覽 ? 0回復(fù)
新的推理模型編碼能力爆表！是的，那個(gè)王，他又回來了！

老蛀蟲 ? 2466瀏覽 ? 0回復(fù)
白嫖資源訓(xùn)練 DeepSeek R1 推理模型

AIGC前沿技術(shù)追蹤 ? 3992瀏覽 ? 0回復(fù)
COSMOS：結(jié)合特征子空間分解的混合自適應(yīng)優(yōu)化器用于大型語言模型的內(nèi)存高效訓(xùn)練

頓數(shù)AI ? 2606瀏覽 ? 0回復(fù)
訓(xùn)練自己的推理模型僅需七個(gè)步驟

51CTO內(nèi)容精選 ? 2282瀏覽 ? 0回復(fù)
理解什么是推理模型，看懂這篇就夠了

AIGC新知 ? 2094瀏覽 ? 0回復(fù)
S1-Bench：評(píng)估大型推理模型中的系統(tǒng) 1 思維

芝士AI吃魚 ? 1162瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

TransDiff--最簡(jiǎn)潔的AR Transformer + Diffusion圖像生成方法 6天前發(fā)布
遲來！解讀Qwen開源的Embedding模型中的細(xì)節(jié)！附實(shí)測(cè)結(jié)果！ 2025-06-13 07:17:37發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：通義千問又開源啦！WorldPM-世界偏好模型來了！

下一篇：遲來！解讀Qwen開源的Embedding模型中的細(xì)節(jié)！附實(shí)測(cè)結(jié)果！

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：自拍偷拍第1页 | 欧美日韩高清一区二区三区 | 综合色影院 | 99视频在线播放 | 成人亚洲一区 | 国产一区二区三区 | 99久久国产精 | 拍真实国产伦偷精品 | 日韩成人在线免费视频 | 久久久久久久久久性 | 国产日韩欧美另类 | 一级毛片网| 久草久草久草 | 亚洲欧美中文字幕在线观看 | 韩日在线视频 | 懂色av蜜桃av | 91免费在线看 | 国产一区二区在线免费 | 久久久www成人免费无遮挡大片 | 91xh98hx 在线国产 | 91伊人| 国产乱一区二区三区视频 | 日韩视频在线免费观看 | 精品动漫一区 | 国产亚洲精品综合一区 | 99精品国产一区二区三区 | 爱综合| 国产成人精品一区二区三区在线观看 | 超碰在线网站 | 日韩福利 | 国产精品观看 | 国产精品爱久久久久久久 | 在线免费观看成人 | 99国产视频 | av网址在线 | 伊人超碰在线 | 蜜臀久久 | 91精品国产自产精品男人的天堂 | 欧美视频一区二区三区 | 日韩精品视频在线 | 精品一二三区 |

<mark id="pkjua"><option id="pkjua"></option></mark>

<output id="pkjua"></output>