成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="0cwwy"></li>

<dl id="0cwwy"></dl>

<rt id="0cwwy"></rt>

<code id="0cwwy"><delect id="0cwwy"></delect></code>

<button id="0cwwy"></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

DeepSeek-R1-Zero激發了推理Scaling Law

發布于 2025-2-13 12:20

瀏覽

0收藏

本文將散落在近期多篇文章中筆者圍繞激發推理Scaling Law的思考做了一下整理。

方向

MIT對大模型數理原理的強有力證明中總結：

基于宏大的人類知識提取出來豐富范疇，形成眾多領域的本體知識結構，這是大模型通過預訓練已經構建的內部世界模型；提高推理采樣的機制，通過訓練達成學習推理的scaling law，是大模型下一步努力提升的方向。

相比傳統方法，新的大模型機理，具備更高維度的新穎性、對能力和技術細節的探索，可以通過揭示隱藏的聯系建立更廣泛有用的創新框架。AI 知識圖驅動的跨學科研究可能會成為科學和哲學探索的有力工具。

框架

DeepSeek R1 與 Kimi 1.5 的推理強化學習中梳理了整體框架：

在已訓練的LLM世界模型的基礎上，進行專注推理策略的第二階預訓練，給LLM構建完整的“大腦皮層”，進而皮層指揮LLM推理生成：

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區圖片

1. 積累推理語料：目前人類推理被“語料化”最多的領域，筆者能想到的還是注釋的代碼、LLM自己積累的人類提示的思維鏈、應試答題步驟、科學文獻中的推導、邏輯與哲學的思辨等，歡迎大家補充；

2. 預訓練推理策略生成器：有針對性地基于這些推理語料做預訓練，從中“重整化”提煉出特殊的“推理范疇”，作為整體世界模型采樣變分推理的策略生成器（直接從整體范疇中分離并精調“推理范疇”或許亦可行）；

3. 策略驅動世界模型變分推理：依據預訓練的推理策略生成器生成的最佳策略，在LLM內部整體范疇上，也就是內部世界模型上，做范疇內或跨范疇采樣變分推理。

策略

重新思考 MoE 進一步解讀 “MoE 其實 = 推理采樣策略” ：

MoE里的“專家”是一種擬人的形象化的說法，如果全文替換成“特定范疇”，讀者會發現MoE其實本質上是基于某種人類先驗“知識”或“策略”的“跨范疇采樣”：

“在外部感官輸入下（被提示置于某種上下文），大模型內部將限定在相應的高維語言概率空間的子空間內推理；推理是在子空間中采樣，類比時跨范疇采樣”。

目前 MoE 可以理解為一種分布式采樣策略，可以GShard硬編碼，或進一步DeepSeekMoE細分，也可以如MoDE基于噪聲更靈活調節策略，亦或引入某種優化器(類似SQL優化器)，并最終依賴推理的scaling law涌現出策略。

技術

通往ASI的大模型推理，詳細分析了支撐LLM推理涌現的技術：

測試時計算（Test-time Computing）也被寄予厚望。蘇州大學、新加坡國立大學和螞蟻集團的研究人員探索了測試時計算，追蹤了其從 System-1 到 System-2 模型的演變。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

測試時計算最初應用于 System-1 模型，通過參數更新、輸入修改和輸出校準來解決分布偏移并增強穩健性，現在使用重復采樣、自我校正和樹搜索等策略加強了 System-2 模型中的推理。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

測試時適應（TTA）在推理過程中使用測試樣本信息微調模型。關鍵考慮因素包括學習信號、參數更新和確保效率。測試時訓練（TTT）學習信號使用輔助任務，而完全測試時適應（FTTA）利用內部反饋（如熵最小化）。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

筆者認為，測試時計算模型更新，等于利用測試樣本信息在推理階段進一步微調了模型參數，使模型能夠適應測試分布。這樣不僅學了更多的內容（測試語料），還反復推敲學習如何采樣變分用于推理，本質是積累了推理的范疇。

測試時計算的訓練方式，如果推廣到更大范圍的語料（甚至重復利用預訓練時期的語料），可以積累更多推理范疇，從而提升推理能力。預訓練的語料中，也有大量類似的推理場景，針對此類場景，采用測試時適應，或類似的測試時計算的策略，在預訓練時就可以同時積累推理的范疇，即推理內化成內部世界模型中的一部分。

突破

DeepSeek R1 與 Kimi 1.5 的推理強化學習, 簡要分析了DeepSeek強化學習變體：

DeepSeek R1沒有使用監督微調（SFT）作為冷啟動，轉而通過大規模強化學習（RL）提升大模型推理能力。DeepSeek-R1-Zero 沒用任何SFT數據，直接將RL應用于基礎模型，DeepSeek-R1則是從經過數千個長鏈式推理（CoT）示例微調的檢查點開始應用RL。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

DeepSeekMath的組相對策略優化（GRPO）是R1成功的關鍵。GRPO是近端策略優化（PPO）的變體，PPO是廣泛用于LLM 微調階段的演員-評論家（actor-critic）強化學習算法。

PPO中使用的價值函數通常是另一個與策略模型規模相當的模型，會帶來巨大的內存和計算負擔，而且在LLM上下文中，通常只有最后一個token會被獎勵模型分配獎勵分數，而在每個token上訓練一個準確的價值函數很困難。

因此，GRPO摒棄了通常與策略模型規模相同的評論家模型，而是使用針對同一問題生成的多個采樣輸出的平均獎勵作為基線。

DeepSeekMath不僅引入GRPO，而且給出極具深度的洞察：監督微調（SFT）、獎勵微調（RFT）、直接偏好優化（DPO）、近端策略優化（PPO）、組相對策略優化（GRPO）在邁向統一的范式。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

監督微調（SFT）：在人類篩選的 SFT 數據上對預訓練模型進行微調。

拒絕采樣微調（RFT）：RFT 在基于 SFT 問題從 SFT 模型采樣的過濾輸出上進一步微調 SFT 模型。RFT 根據答案的正確性對輸出進行過濾。

直接偏好優化（DPO）：DPO 通過使用成對 DPO 損失在從 SFT 模型采樣的增強輸出上微調 SFT 模型，進一步優化模型。

在線拒絕采樣微調（在線 RFT）：與 RFT 不同，在線 RFT 使用 SFT 模型初始化策略模型，并通過從實時策略模型采樣的增強輸出進行微調來優化模型。

PPO/GRPO：PPO/GRPO 使用 SFT 模型初始化策略模型，并通過從實時策略模型采樣的輸出進行強化學習來優化模型。

原理

GRPO 是DeepSeek魔法的源泉闡述了GRPO本質：

組內多采樣與大數定理：

GRPO平均獎勵的有效性可能直接源于大數定理，作為概率基礎理論支撐，大數定理可以確保獎勵基線估計的統計合理性。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

近似實現最優輸運：

GRPO通過采樣同一問題的多個輸出（組內樣本），計算其平均獎勵作為基線，并對獎勵進行歸一化（減去組均值，除以標準差）。這一過程本質上是在對齊組內輸出的經驗分布，使其向高獎勵區域集中。

將組內樣本的原始獎勵分布視為源分布，高獎勵區域視為目標分布。GRPO的歸一化操作類似于OT中的分布歸一化，旨在減少分布間的統計差異。通過優化策略使生成分布向目標分布傳輸，隱式利用了Wasserstein距離的特性。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

GRPO舍棄大規模價值模型，利用組內樣本統計量降低計算復雜度，組內歸一化基線估計與OT中的小批量近似或切片Wasserstein距離思路一致，通過有限樣本近似全局分布特性。優勢函數僅依賴組內相對獎勵，類似OT中局部耦合的構造，減少高維空間的計算負擔。

實踐

DeepSeek-R1與R1-Zero通過創新強化學習技術，突破傳統LLM依賴監督微調（SFT）的局限，成功實踐并開創了推理能力自我進化的新范式。

R1-Zero完全跳過SFT階段，摒棄傳統PPO算法中的價值模型，直接在基礎模型DeepSeek-V3-Base上應用GRPO純強化學習方法訓練。模型自發學會延長思維鏈、重新評估初始答案并修正錯誤，甚至出現類似人類“頓悟時刻”的行為。

模型實際推理能力驚人，在AIME 2024數學競賽中的Pass@1準確率從15.6%躍升至71.0%，多數投票后達86.7%，媲美頂尖閉源模型。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

R1優化改進了R1-Zero可讀性差、語言混合等問題，通過冷啟動SFT、多階段強化學習、拒絕采樣與蒸餾等策略實現訓練效率與推理能力的平衡。

R1系列的突破不僅體現在性能上，更揭示了LLM通過自我迭代不斷增強推理能力的可能，筆者認為其技術路徑的成功實踐，是通往AGI的重要里程碑。

更讓人驚喜的是，R1系列模型具備強大的技術迭代能力，這意味著未來R2、R3不僅會更強大、更完善，迭代周期也會更短，新模型可能很快就會到來。

擴展

更近一步，斯坦福近期提出了一種名為"s1:簡單測試時擴展"的方法，在語言建模中實現了測試時計算的高效擴展[文獻1] 。

通過僅使用1000個樣本的監督微調，結合預算強制技術，顯著提升了模型的推理能力，尤其在數學競賽任務中超越了OpenAI的閉源模型o1-preview，展現出極高的樣本效率。

DeepSeek-R1-Zero激發了推理Scaling Law-AI.x社區

學者們構建了包含1000個問題的小型數據集s1K，問題覆蓋難度、多樣性和質量三個維度，通過消融實驗驗證其有效性。

然后通過預算強制技術控制模型的思維過程，實現測試時計算的動態擴展，包括強制終止并輸出當前最佳答案，多次追加"Wait"指令延長思考，迫使模型回溯推理步驟，修正錯誤路徑等。

基于Qwen2.5-32B-Instruct模型，在s1K數據集監督微調并應用預算強制技術后，數學競賽MATH和AIME24上的表現超過o1-preview最高達27%。進一步擴展測試時計算量后，無干預時AIME24準確率從50%提升至57%。

這是樣本效率的革命，傳統方法需依賴數以萬計的微調示例（如R1使用近百萬樣本強化學習），而s1僅用1000樣本即達到同等水平。

簡單測試時擴展，驗證了模型預訓練階段已具備推理潛力，微調僅需"激活"這一能力。這類似筆者在“框架”部分提到的“直接從整體范疇中分離并精調“推理范疇”。

文獻1，s1: Simple test-time scaling，https://arxiv.org/abs/2501.19393

本文轉載自??清熙??，作者：王慶法 ????

標簽

贊

收藏

回復

舉報

回復

相關推薦

解密o1推理過程！DeepSeek-R1-Lite預覽版上線

kede96 ? 3209瀏覽 ? 0回復
看了這么多文章，終于理解了 Scaling Law

芝士AI吃魚 ? 6356瀏覽 ? 0回復
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風云2002_1 ? 1.2w瀏覽 ? 0回復
DeepSeek-AI 發布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 4230瀏覽 ? 0回復
DeepSeek-R1：通過強化學習激發大語言模型的推理潛能

柏企閱文 ? 4696瀏覽 ? 0回復
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓練技術對比大解密！

51CTO技術棧 ? 6185瀏覽 ? 0回復
外國專家解讀DeepSeek：預算有限，如何復制R1推理模型？純強化學習不現實！

51CTO技術棧 ? 1935瀏覽 ? 0回復
“幾十塊”從零復現deepseek-R1–zero“頓悟時刻”不可能實驗驗證

大模型自然語言處理 ? 2356瀏覽 ? 0回復
DeepSeek-R1-Zero自我進化的3大特點和3大基石

智駐未來 ? 2893瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4900瀏覽 ? 0回復
OpenAI揭示o3的推理過程，以彌合與DeepSeek-R1的差距

51CTO內容精選 ? 2166瀏覽 ? 0回復
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 9210瀏覽 ? 0回復
白嫖資源訓練 DeepSeek R1 推理模型

AIGC前沿技術追蹤 ? 3982瀏覽 ? 0回復
沖，DeepSeek-R1/V3推理系統架構設計被開源了！

PaperAgent ? 2341瀏覽 ? 0回復
Vision-R1：多模態領域的DeepSeek R1-Zero，7B參數比肩OpenAI O1

Syrupup ? 2412瀏覽 ? 0回復
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技術棧 ? 2132瀏覽 ? 0回復
DeepSeek R1 & R2 技術原理

ceesoft ? 3791瀏覽 ? 0回復
全面復現DeepSeek-R1-Zero 數學、代碼能力，訓練步數僅需R1-Zero 1/10

快手技術 ? 1086瀏覽 ? 0回復
DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1

靈度智能 ? 1319瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

Nature: 精度不受熱力學第二定律限制 8天前發布
Nvidia的具身推理模型還缺什么？ 2025-05-29 07:20:59發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：后DeepSeek時代，大模型領域如何開工大吉

下一篇：有感于微信接入DeepSeek

社區精華內容

目錄

主站蜘蛛池模板： 91香蕉视频在线观看 | 最新中文字幕 | 日本中文字幕日韩精品免费 | 国产欧美一区二区三区在线看 | 国产视频一区在线观看 | 亚洲视频一区二区三区 | 亚洲视频在线一区 | 888久久久| 9191av| 久久国产区 | 免费观看一区二区三区毛片 | 国产精品久久久久久久午夜片 | 国产99视频精品免费播放照片 | 欧美炮房| 久久爆操| 精品国产乱码久久久久久1区2区 | 日日干日日操 | 午夜播放器在线观看 | 亚洲精品久久久久久久久久久久久 | 九九热最新视频 | 久久综合香蕉 | 国产超碰人人爽人人做人人爱 | 国产精品久久影院 | 日韩免费网站 | 色婷婷综合网 | 蜜臀久久 | 免费视频一区二区 | 热re99久久精品国99热观看 | 韩日精品一区 | 日韩中文欧美 | 国产九九九九 | 一级黄色影片在线观看 | 中文字幕在线观看一区二区 | 亚洲精品国产第一综合99久久 | 国产乱码久久久久久一区二区 | 福利视频一区二区 | 亚洲精品二区 | 国产一区二区在线视频 | 国产精品久久久久久久模特 | 欧美国产视频 | 一区二区三区四区国产精品 |

<code id="0088e"></code>

<rt id="0088e"><acronym id="0088e"></acronym></rt>

<bdo id="0088e"><source id="0088e"></source></bdo><dl id="0088e"><tr id="0088e"></tr></dl>

<li id="0088e"></li>

<rt id="0088e"></rt>

<button id="0088e"></button>

<dl id="0088e"><xmp id="0088e"></xmp></dl>

<center id="0088e"></center>

<button id="0088e"></button>