成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Qwen3模型架構(gòu)、訓(xùn)練方法梳理 原創(chuàng)

發(fā)布于 2025-5-15 06:37
瀏覽
0收藏

模型架構(gòu)

Qwen3模型架構(gòu)、訓(xùn)練方法梳理-AI.x社區(qū)

Dense 模型結(jié)構(gòu)改進:

  • GQA、SwiGLU、RoPE、RMSNorm with pre-normalization與Qwen2.5 相似。
  • 移除了 Qwen2 中的 移除QKV偏置,減少模型復(fù)雜性,在注意力機制中引入 QK-Norm 來確保穩(wěn)定訓(xùn)練。

MoE 模型結(jié)構(gòu)改進:

改進點

描述

細粒度專家分割

增強模型的表達能力和效率。

全局批次負載均衡損失

鼓勵專家專業(yè)化,提高模型整體性能。

移除共享專家

與Qwen2.5-MoE不同,Qwen3-MoE設(shè)計中排除了共享專家。

128個總專家,每個token激活8個專家

增加專家數(shù)量以提高模型的多樣性和表現(xiàn)力。

Qwen3 模型使用 Qwen 的 tokenizer,byte-level BPE,詞表大小 151669

預(yù)訓(xùn)練

預(yù)訓(xùn)練數(shù)據(jù)

預(yù)訓(xùn)練數(shù)據(jù)情況:

  • 36萬億個token,是Qwen2.5的兩倍
  • 包括多種語言和方言,總共支持119種語言,而Qwen2.5僅支持29種
  • 包括高質(zhì)量的文本,涵蓋編程、STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))、推理任務(wù)、書籍、多語言文本和合成數(shù)據(jù)等領(lǐng)域

數(shù)據(jù)收集方法:

  • 使用Qwen2.5-VL模型對大量PDF文檔進行文本識別,并通過Qwen2.5模型進行質(zhì)量提升。
  • 利用Qwen2.5、Qwen2.5-Math和Qwen2.5-Coder模型生成合成的文本數(shù)據(jù),涵蓋教科書、問答、指令和代碼片段等格式。

此外,開發(fā)了一個多語言數(shù)據(jù)注釋系統(tǒng),標(biāo)注超過30萬億個token,涵蓋教育價值、領(lǐng)域、安全和多語言等方面。通過詳細的注釋支持更有效的數(shù)據(jù)過濾和組合。

不同于之前在數(shù)據(jù)源或 domain 層面的優(yōu)化數(shù)據(jù)組合的工作,通過帶有細粒度標(biāo)簽的小模型上廣泛的消融實驗,在 instance-level 上對數(shù)據(jù)組合進行優(yōu)化。

預(yù)訓(xùn)練階段

qwen3經(jīng)過 3 個階段的預(yù)訓(xùn)練: Qwen3的預(yù)訓(xùn)練分為三個階段,每個階段都有其特定的目標(biāo)和策略:

  1. 通用階段(General Stage, S1):建立廣泛的語言知識和一般世界知識。使用超過30萬億個token,覆蓋119種語言和方言。序列長度:4096。模型在語言熟練度和一般知識方面得到充分預(yù)訓(xùn)練。
  2. 推理階段(Reasoning Stage, S2):提高在科學(xué)、技術(shù)、工程、數(shù)學(xué)(STEM)和編碼等領(lǐng)域的推理能力。增加STEM、編碼、推理和合成數(shù)據(jù)的比例。序列長度:4096。加速學(xué)習(xí)率衰減,優(yōu)化預(yù)訓(xùn)練語料庫以提高推理能力。
  3. 長上下文階段(Long Context Stage):擴展模型的最大上下文長度。收集高質(zhì)量的上下文數(shù)據(jù),將上下文長度從4,096擴展到32,768個token。序列長度:32768。使用ABF技術(shù)增加RoPE的基礎(chǔ)頻率,引入YARN和Dual Chunk Attention以實現(xiàn)更長的上下文處理能力。

后訓(xùn)練

后訓(xùn)練的兩個核心目標(biāo):

  • 思考控制(Thinking Control)):整合“非思考”和“思考”兩種模式,允許用戶選擇是否讓模型進行推理。用戶可以通過指定思考token的預(yù)算來控制思考過程的深度。
  • 強到弱蒸餾(Strong-to-Weak Distillation):優(yōu)化輕量級模型,通過從大型模型中提取知識來減少計算成本和開發(fā)工作量。包括離線蒸餾和在線蒸餾兩個階段,賦予輕量級模型基本的推理技能和模式切換能力。

Qwen3模型架構(gòu)、訓(xùn)練方法梳理-AI.x社區(qū)

后訓(xùn)練pipline:

1. 長CoT冷啟動

Long-CoT Cold Start目的是通過高質(zhì)量數(shù)據(jù)集和精簡訓(xùn)練流程,讓模型初步掌握CoT推理能力。

數(shù)據(jù)集構(gòu)建:

(1) Query 過濾(篩選高質(zhì)量問題)? 移除低質(zhì)量 query:使用 Qwen2.5-72B-Instruct 識別并剔除:不易驗證的 query(如含多個子問題、普通文本生成類問題)。 Qwen2.5-72B-Instruct 可直接回答的 query(無需 CoT 推理)。領(lǐng)域平衡:對 query 進行標(biāo)注,確保數(shù)據(jù)集覆蓋多個領(lǐng)域,避免偏差。

(2) Response 過濾(篩選高質(zhì)量答案)

  • 初步篩選:保留一個驗證 query 集,用 QwQ-32B 生成 N 個候選 response。
  • 人工評估:當(dāng) QwQ-32B 無法正確回答時,人工檢查 response 的準(zhǔn)確性,并過濾掉:
  1. 錯誤答案(最終結(jié)果錯誤)。
  2. 大量重復(fù)內(nèi)容。
  3. 無充分推理的猜測。
  4. 思考內(nèi)容與總結(jié)內(nèi)容表現(xiàn)不一致(邏輯矛盾)。
  5. 不適當(dāng)語言混合/風(fēng)格變化。
  6. 疑似與驗證集相似(防止數(shù)據(jù)泄露)。
  • 嚴格篩選 positive Pass@N 的 query:進一步提高數(shù)據(jù)質(zhì)量。

(3) 數(shù)據(jù)精選與訓(xùn)練

  • 從精煉后的數(shù)據(jù)集中挑選 子集 進行 初始冷啟動訓(xùn)練,植入基礎(chǔ)推理模式。
  • 控制數(shù)據(jù)量 & 訓(xùn)練步數(shù),避免過度擬合,為后續(xù) RL 階段留出優(yōu)化空間。

核心創(chuàng)新點 :數(shù)據(jù)集設(shè)計時已考慮 ??/think??? 和 ??/no_think?? 模式,使模型能靈活切換推理方式。在訓(xùn)練時,允許模型基于思考預(yù)算動態(tài)調(diào)整計算資源分配。

冷啟動后,模型進入 Reasoning RL 階段,利用 3995 個高質(zhì)量 query-verifier 對 進行強化學(xué)習(xí),進一步提升推理能力。

2.Reasoning RL

Reasoning RL 階段,Qwen3 通過 高質(zhì)量 query-verifier 對 和 RL優(yōu)化,進一步提升模型的推理能力,使其在數(shù)學(xué)、代碼、STEM 等復(fù)雜任務(wù)上表現(xiàn)更優(yōu)。

Query-Verifier 設(shè)計標(biāo)準(zhǔn)

標(biāo)準(zhǔn)

說明

未在冷啟動階段使用過

避免數(shù)據(jù)重復(fù),確保 RL 訓(xùn)練的數(shù)據(jù)多樣性。

對冷啟動模型是可學(xué)習(xí)的

確保模型在 RL 階段仍有提升空間,避免過難或過易的問題。

盡可能具有挑戰(zhàn)性

提高模型的推理能力,使其能處理更復(fù)雜的邏輯和計算任務(wù)。

涵蓋廣泛的子領(lǐng)域

確保模型在不同任務(wù)(如數(shù)學(xué)、代碼、邏輯推理)上都能提升。

最終收集了 3995 個高質(zhì)量的 query-verifier 對,用于 RL 訓(xùn)練。

RL 訓(xùn)練方法

Qwen3模型架構(gòu)、訓(xùn)練方法梳理-AI.x社區(qū)

??https://mp.weixin.qq.com/s/zBmVGXecSBOSxImJvBy7JA??

采用 GRPO 更新模型參數(shù),并采用以下優(yōu)化策略:

策略

說明

大 batchsize

提高訓(xùn)練穩(wěn)定性,減少訓(xùn)練波動。

大 rollout

增加樣本多樣性,提升泛化能力。

off-policy 訓(xùn)練

提高樣本效率,減少計算資源消耗。

此外,Qwen3 還解決了探索(exploration)與利用(exploitation) 的平衡問題: 控制模型熵的穩(wěn)定增長或保持穩(wěn)定,確保訓(xùn)練過程不會過早收斂或陷入局部最優(yōu)。

效果: 無需手動調(diào)整超參數(shù),訓(xùn)練過程中 reward 和驗證集表現(xiàn)持續(xù)提升。  Qwen3-235B-A22B 在 AIME'24 的得分從 70.1 提升至 85.1,僅用了 170 步 RL 訓(xùn)練。

3.Thinking Mode Fusion(思考模式融合)

核心目標(biāo) :將 non-thinking(快速響應(yīng))能力整合到 thinking(復(fù)雜推理)模型中,使開發(fā)者能夠動態(tài)控制模型的推理行為,從而在不同任務(wù)需求下靈活切換模式,并保持高性能。

方法
(1) 繼續(xù) SFT(監(jiān)督微調(diào))

  • 基于 Reasoning RL 模型進行 SFT,進一步優(yōu)化模型的推理和響應(yīng)能力。
  • 數(shù)據(jù)構(gòu)造方式:

     Thinking 數(shù)據(jù):由第一階段的 query 拒絕采樣得到(確保高質(zhì)量)。

     Non-thinking 數(shù)據(jù):涵蓋多樣化任務(wù)(代碼、數(shù)學(xué)、指令遵循、多語言、創(chuàng)意寫作、問答、角色扮演等),并增加 翻譯任務(wù)比例(提升低資源語言性能)。

     數(shù)據(jù)質(zhì)量評估:采用自動化生成的 checklists 確保數(shù)據(jù)質(zhì)量。

(2) Chat Template 設(shè)計

  • 引入??/think??? 和??/no_think?? 標(biāo)志,使用戶能動態(tài)控制模型的推理模式:

Qwen3模型架構(gòu)、訓(xùn)練方法梳理-AI.x社區(qū)

  ??     /think??:啟用推理模式(適合復(fù)雜任務(wù))。

    ??/no_think??:啟用快速響應(yīng)模式(適合簡單任務(wù))。

  • 默認模式:默認使用 thinking 模式,但允許靈活調(diào)整。
  • 多輪對話支持:在復(fù)雜對話中,可隨機插入多個??/think??? 和??/no_think?? 標(biāo)志,模型按 最后遇到的標(biāo)志 決定當(dāng)前模式。

(3) Thinking Budget 機制Thinking Mode Fusion 的一個額外優(yōu)勢是,一旦模型學(xué)會了以 non-thinking 和 thinking 兩種模式進行回應(yīng),就自然發(fā)展出處理中間情況的能力——基于不完整的思考生成 response。為實現(xiàn)對模型思考過程的預(yù)算控制提供基礎(chǔ)。當(dāng)模型思考長度達到用戶定義的閾值時,手動停止思考過程,并插入停止思考指令:“Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n.\n\n“。模型會基于此時積累的推理生成最終 response。這一能力沒有經(jīng)過明確訓(xùn)練,而是應(yīng)用 thinking mode fusion 后自然出現(xiàn)的。

4.General RL(通用強化學(xué)習(xí))階段

核心目標(biāo):全面提升Qwen3模型在不同場景下的能力與穩(wěn)定性,使其能夠適應(yīng)各種復(fù)雜任務(wù)需求,提供更優(yōu)質(zhì)的用戶體驗。

復(fù)雜的Reward System設(shè)計:

構(gòu)建了一個涵蓋超過20個不同任務(wù)的復(fù)雜獎勵系統(tǒng),每個任務(wù)都有定制化的評分標(biāo)準(zhǔn),主要針對以下核心能力進行提升:

(1) 指令遵循:確保模型能準(zhǔn)確解讀并遵循用戶指令。包括對內(nèi)容、格式、長度以及結(jié)構(gòu)化輸出使用等方面的要求。目標(biāo)是提供符合用戶預(yù)期的回應(yīng)。

(2) 格式遵循:期望模型遵守特定的格式規(guī)范。例如,根據(jù)??/think???和??/no-think??標(biāo)志在思考與非思考模式之間切換。一致使用指定的標(biāo)記來分離最終輸出中的思考和響應(yīng)部分。

(3) 偏好對齊:關(guān)注提高模型的有用性、參與度和風(fēng)格。最終目標(biāo)是提供更加自然和令人滿意的用戶體驗。

(4) Agent能力:涉及訓(xùn)練模型通過指定的接口正確調(diào)用工具。在RL rollout期間,模型被允許執(zhí)行完整的多輪互動周期,并獲得真實環(huán)境執(zhí)行的反饋。提高其在長期決策任務(wù)中的表現(xiàn)和穩(wěn)定性。

(5) 特定場景能力:在更專業(yè)的場景中設(shè)計針對具體情境的任務(wù)。例如,在RAG(檢索增強生成)任務(wù)中,結(jié)合獎勵信號來指導(dǎo)模型生成準(zhǔn)確且符合上下文的response。最小化產(chǎn)生幻覺的風(fēng)險。

多樣化的獎勵類型為上述任務(wù)提供反饋,使用了三種不同類型的獎勵:

(1) Rule-based Reward:基于規(guī)則的獎勵機制。可以高準(zhǔn)確性地評估模型輸出的正確性。 防止reward hacking等問題。

(2) Model-based Reward with Reference Answer:給每個query提供一個參考答案。使用Qwen2.5-72B-Instruct基于參考答案給模型的response打分。允許更靈活地處理多樣化任務(wù),無需嚴格的格式命令。避免了rule-based reward的假陰性問題。

(3) Model-based Reward without Reference Answer:利用人類偏好數(shù)據(jù),訓(xùn)練一個Reward Model。為每個response提供標(biāo)量分數(shù)。更加靈活地適應(yīng)不同任務(wù)和場景的需求。

5.Strong-to-Weak Distillation(強到弱蒸餾)

核心目標(biāo):利用大模型(教師模型)的知識,優(yōu)化小模型(學(xué)生模型)的性能,使其在計算資源有限的情況下,仍能保持較高的推理能力和多任務(wù)適應(yīng)性。

  • 5個Dense模型(0.6B、1.7B、4B、8B、14B)
  • 1個MoE模型(Qwen3-30B-A3B)

蒸餾流程

(1) Off-policy Distillation(離線蒸餾) :利用大模型(教師模型)在 ??/think??? 和 ??/no_think?? 模式下的輸出,初始化小模型的能力。

  • 將教師模型在不同模式下的 response 作為“軟標(biāo)簽”(soft labels)。
  • 學(xué)生模型通過最小化與教師模型輸出的 KL 散度(Kullback-Leibler Divergence),學(xué)習(xí)大模型的推理模式。

(2) On-policy Distillation(在線蒸餾)  :進一步優(yōu)化學(xué)生模型,使其更適應(yīng)特定任務(wù)。

  • 學(xué)生模型生成 on-policy 數(shù)據(jù)(即學(xué)生模型自己采樣生成的數(shù)據(jù))。
  • 使用教師模型(Qwen3-32B 或 Qwen3-235B-A22B)的 logits 作為參考,調(diào)整學(xué)生模型的輸出分布。
  • 最小化 KL 散度,使小模型的預(yù)測更接近大模型。

結(jié)果

  • Qwen3 Dense Base 模型:在類似規(guī)模下,性能與 Qwen2.5 更大規(guī)模模型相當(dāng)。
  • Qwen3 MoE Base 模型:  僅用 1/5 的激活參數(shù) 就能達到與 Dense 模型相似的性能。 即使只有 Qwen2.5 Dense 模型 1/10 的激活參數(shù),仍能保持可比性能。

實驗評測的一些表

表太多,看原文

Qwen3模型架構(gòu)、訓(xùn)練方法梳理-AI.x社區(qū)

Qwen3模型架構(gòu)、訓(xùn)練方法梳理-AI.x社區(qū)

四階段評測

Qwen3模型架構(gòu)、訓(xùn)練方法梳理-AI.x社區(qū)

Qwen3模型架構(gòu)、訓(xùn)練方法梳理-AI.x社區(qū)

本文轉(zhuǎn)載自??大模型自然語言處理??   作者:余俊暉

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-5-15 06:38:24修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品成av人在线视午夜片 | 亚洲成人三级 | 亚洲欧美中文日韩在线v日本 | 中文在线一区二区 | 日韩欧美国产不卡 | 日韩精品一区在线观看 | 亚洲小视频| 国产一区二区三区久久久久久久久 | 亚洲精品久久久一区二区三区 | 精精国产视频 | 亚洲激情网站 | 欧美男人的天堂 | 亚洲日日操 | 久草新在线 | 国产一区二区影院 | 在线一区二区三区 | 国产精品久久 | 欧美电影免费观看 | 欧美在线综合 | 91视频网址 | 日韩中文在线视频 | 欧美精品片 | 午夜av毛片| 麻豆亚洲 | 亚洲日韩中文字幕一区 | 欧美日韩黄色一级片 | 91欧美精品成人综合在线观看 | 精品视频一区二区 | 日韩精品视频在线 | 欧美日韩在线精品 | 日韩一区二区三区四区五区六区 | 在线中文av| 免费看国产一级特黄aaaa大片 | 欧美国产精品 | 中文字幕视频免费 | 91亚洲精品久久久电影 | 午夜视频一区二区 | 2022精品国偷自产免费观看 | 欧美一区二区三区在线观看视频 | 一区二区视频在线 | 看片91 |