DeepSeek R1 & R2 技術(shù)原理
傳聞 DeepSeek R2 今天上新,東大時(shí)區(qū)已過(guò),難道是阿美時(shí)間?不必失望,筆者20多年職業(yè)生涯學(xué)到一個(gè)深刻道理是:所有的 rumor 都是真的。
DeepSeek不愧是國(guó)產(chǎn)之光,V3, R1系列模型以其卓越的性能和開(kāi)源創(chuàng)新席卷全球。
相應(yīng)技術(shù)文檔分享了多項(xiàng)關(guān)鍵技術(shù)突破,為高效、可擴(kuò)展的大模型訓(xùn)練與推理奠定了基礎(chǔ)。
R1發(fā)布給行業(yè)帶來(lái)的天翻地覆的震動(dòng)波還在激蕩,R2很快就可能接踵而至了。借此機(jī)會(huì),筆者梳理一下DeepSeek R1&R2超越其他對(duì)手的核心秘方。
一、GRPO與軟歸納偏好
- DeepSeekMath的組相對(duì)策略優(yōu)化(GRPO)是R1成功的關(guān)鍵,核心思想是:去除傳統(tǒng)強(qiáng)化學(xué)習(xí)中價(jià)值函數(shù),避免其高內(nèi)存和計(jì)算成本;
- 對(duì)每個(gè)問(wèn)題采樣多個(gè)輸出,組內(nèi)通過(guò)相對(duì)獎(jiǎng)勵(lì)估計(jì)來(lái)優(yōu)化策略;
- 最大化相對(duì)獎(jiǎng)勵(lì)和策略的 KL 散度約束來(lái)更新策略模型。
學(xué)者用軟歸納偏好來(lái)解釋,深度神經(jīng)網(wǎng)絡(luò)的異常泛化行為,包括良性過(guò)擬合、雙下降現(xiàn)象以及過(guò)參數(shù)化的奇特效果。
軟歸納偏好是解釋這些異常泛化現(xiàn)象的關(guān)鍵統(tǒng)一原則:
與其通過(guò)限制假設(shè)輸出空間來(lái)避免過(guò)擬合,不如擁抱一個(gè)更大更靈活的假設(shè)解的搜索空間,同時(shí)通過(guò)某種機(jī)制對(duì)與數(shù)據(jù)一致的簡(jiǎn)單解賦予軟性偏好。
筆者認(rèn)為GRPO 可以看作是軟歸納偏好在強(qiáng)化學(xué)習(xí)領(lǐng)域的一種具體實(shí)現(xiàn)形式,能夠很好解釋scaling law和頓悟(grokking)等涌現(xiàn)泛化現(xiàn)象:
去除傳統(tǒng)強(qiáng)化學(xué)習(xí)中價(jià)值函數(shù),允許更大更靈活的假設(shè)輸出空間;
分組采樣和相對(duì)獎(jiǎng)勵(lì)估計(jì)引入軟性偏好,賦予模型更高的泛化潛力。
軟歸納偏好被定義為對(duì)某些解的偏好,即使這些解對(duì)數(shù)據(jù)的擬合效果相同。下圖展示了通過(guò)軟歸納偏好實(shí)現(xiàn)良好泛化的過(guò)程。
左圖:一個(gè)大的假設(shè)空間,但對(duì)擬合數(shù)據(jù)效果相同的解沒(méi)有偏好,因此訓(xùn)練通常會(huì)導(dǎo)向過(guò)擬合的解,泛化能力較差。
中圖:軟歸納偏好通過(guò)結(jié)合靈活的假設(shè)空間和對(duì)解的偏好(用不同深淺表示)來(lái)引導(dǎo)訓(xùn)練,從而實(shí)現(xiàn)良好的泛化。
右圖:限制假設(shè)空間可以通過(guò)僅考慮具有某些理想屬性的解來(lái)幫助防止過(guò)擬合,但限制表達(dá)能力,模型無(wú)法捕捉現(xiàn)實(shí)的細(xì)微差別,從而阻礙泛化。
殘差路徑先驗(yàn)(Residual Pathway Priors, RPP)研究表明,給定問(wèn)題,軟偏好對(duì)于等變性的效果通常與完美約束的模型一樣好。
在僅接觸少量數(shù)據(jù)后,軟偏好會(huì)收斂到近乎完美的旋轉(zhuǎn)等變性,因?yàn)槟P捅还膭?lì)以對(duì)稱性表示數(shù)據(jù),并且即使數(shù)據(jù)量很小,它也可以精確地做到這一點(diǎn)。
此外,在數(shù)據(jù)僅包含近似對(duì)稱性或完全沒(méi)有對(duì)稱性的情況下,軟偏好RPP方法的表現(xiàn)顯著優(yōu)于具有硬對(duì)稱性約束的模型。
等變性對(duì)稱性提供了壓縮數(shù)據(jù)的機(jī)制,而transformer具有一種軟歸納偏好,傾向于壓縮數(shù)據(jù)。訓(xùn)練后的vision transformer甚至比CNN更具平移等變性!
軟歸納偏好(而非限制假設(shè)空間)是構(gòu)建智能系統(tǒng)的關(guān)鍵處方,GRPO是個(gè)成功的實(shí)現(xiàn),所以筆者說(shuō):??GRPO 是DeepSeek魔法的源泉??。
二、內(nèi)存墻與 I/O感知
為執(zhí)行運(yùn)算,GPU必須將數(shù)據(jù)從高層級(jí)的 DRAM 移動(dòng)到低層級(jí)的計(jì)算核,因而GPU 的性能不僅受限于計(jì)算能力(TFLOPs),還受限于內(nèi)存帶寬(GB/s)。
現(xiàn)在大模型已經(jīng)撞到了內(nèi)存墻——隨著計(jì)算能力的提升速度(×3/2年)遠(yuǎn)快于 DRAM 帶寬的提升速度(×1.6/2年),算法越來(lái)越受限于帶寬/傳輸成本。
此外,DRAM 已占系統(tǒng)總功耗的 46%,隨著內(nèi)存相對(duì)于計(jì)算效率的逐漸降低,考慮傳輸成本 I/O 感知 變得非常關(guān)鍵。大力出奇跡,還得當(dāng)心很多白費(fèi)蠻力。
這應(yīng)該是DeepSeek AI工程團(tuán)隊(duì)做了大量的對(duì)英偉達(dá)芯片集群性能的極限優(yōu)化與提升的更深層次的原因。可見(jiàn)于通信與混合精度的驚艷工作:
DualPipe通信優(yōu)化,在前后向微批次內(nèi)部和之間疊加計(jì)算和通信階段,從而減少了流水線低效。
特別是,分發(fā)(將token路由到專家)和合并(聚合結(jié)果)操作通過(guò)定制的PTX(并行線程執(zhí)行)指令與計(jì)算并行處理,繞過(guò)CUDA與NVIDIA GPU接口并優(yōu)化其操作。
某種意義上說(shuō),DeepSeek 實(shí)際上是為 GPU 集群中的all對(duì)all通信創(chuàng)建了自己的 GPU 上的虛擬 DPU,用于執(zhí)行各種與 SHARP 類似的操作。
同時(shí),DeepSeek使用FP8混合精度框架,實(shí)現(xiàn)更快的計(jì)算速度和更低的內(nèi)存占用,同時(shí)不犧牲數(shù)值穩(wěn)定性。
關(guān)鍵操作(如矩陣乘法)以FP8精度執(zhí)行,而敏感組件(如嵌入層和歸一化層)則保留更高精度(BF16或FP32)以確保準(zhǔn)確性。
DeepSeek 獨(dú)創(chuàng)了對(duì)正在處理的數(shù)據(jù)的尾數(shù)和指數(shù)進(jìn)行微縮放,從而在不損害數(shù)據(jù)保真度的情況下,保持任何給定計(jì)算所需的精度水平和數(shù)值范圍。
大家熟悉的FlashAttention也是一種 I/O-Aware的注意力機(jī)制,克服了內(nèi)存墻問(wèn)題。注意力機(jī)制是生成模型的核心,包括大語(yǔ)言模型和圖像生成算法。
FlashAttention 通過(guò)融合注意力機(jī)制的步驟,在低層級(jí)內(nèi)存上完成所有順序計(jì)算,避免了不必要的中間數(shù)據(jù)傳輸。與標(biāo)準(zhǔn)的 PyTorch 實(shí)現(xiàn)相比,其吞吐量提高了 6 倍。
然而,當(dāng)前生成 I/O 感知算法,以利用硬件特性的最佳技術(shù),仍然是緩慢的手動(dòng)推導(dǎo),可能導(dǎo)致大量性能仍未被充分挖掘。
FlashAttention就是歷經(jīng)三年三次迭代才能充分利用 Hopper 硬件(NVIDIA, 2022)的特性。DeepSeek業(yè)界良心,開(kāi)源了不少代碼,方便大家抄作業(yè)。
系統(tǒng)化創(chuàng)新自動(dòng)優(yōu)化算法需要一種機(jī)制來(lái)理解算法的組合結(jié)構(gòu),并需要一個(gè)性能模型來(lái)比較執(zhí)行同一操作的不同方式,難度很大,【文獻(xiàn)2】非常值得期待:
文獻(xiàn)提出了基于神經(jīng)電路圖(Neural Circuit Diagrams)的深度學(xué)習(xí)算法表征方案,展示了任務(wù)在 GPU 層級(jí)結(jié)構(gòu)中的分布及相關(guān)資源使用情況。
該方案結(jié)合了用于融合算法組合性質(zhì)的定理,能夠快速推導(dǎo)出 GPU 優(yōu)化的矩陣乘法和注意力機(jī)制的高層次草圖,并構(gòu)建出相應(yīng)性能模型。
三、代碼與推理Scaling Law
基于宏大的人類知識(shí)提取出來(lái)豐富范疇,形成眾多領(lǐng)域的本體知識(shí)結(jié)構(gòu),這是大模型通過(guò)預(yù)訓(xùn)練已經(jīng)構(gòu)建的內(nèi)部世界模型;
提高推理采樣的機(jī)制,通過(guò)訓(xùn)練測(cè)試達(dá)成學(xué)習(xí)推理的scaling law,是大模型下一步努力提升的關(guān)鍵方向。
在已訓(xùn)練的LLM世界模型的基礎(chǔ)上,進(jìn)行專注推理策略的第二階預(yù)訓(xùn)練,給LLM構(gòu)建完整的“大腦皮層”,進(jìn)而借助皮層指揮LLM推理生成。
“???MoE = 推理采樣策略??” :MoE里的“專家”是一種擬人的形象化的說(shuō)法,本質(zhì)上是基于某種人類先驗(yàn)“知識(shí)”或“策略”的“跨范疇采樣”:
“在外部感官輸入下,大模型內(nèi)部將限定在相應(yīng)的高維語(yǔ)言概率空間的子空間內(nèi)推理;推理是在子空間中采樣,做類比時(shí)跨范疇采樣”。
現(xiàn)有支撐激發(fā)LLM推理scaling law的技術(shù):參數(shù)更新、輸入修改和輸出校準(zhǔn)解決分布偏移并增強(qiáng)穩(wěn)健性;重復(fù)采樣、自我校正和樹搜索等策略用來(lái)加強(qiáng)推理。
測(cè)試時(shí)計(jì)算模型更新,等于利用測(cè)試樣本信息在推理階段進(jìn)一步微調(diào)了模型參數(shù),使模型能夠適應(yīng)測(cè)試分布。
推理過(guò)程中進(jìn)行重復(fù)采樣同樣可以顯著提升復(fù)雜任務(wù)(如數(shù)學(xué)和編程)的性能【文獻(xiàn)3】,即使是較小的模型也能通過(guò)增加采樣獲得顯著性能提升。性能改進(jìn)遵循指數(shù)冪律關(guān)系。
關(guān)鍵的推理階段增強(qiáng)技術(shù)可以結(jié)合使用:重復(fù)采樣(生成多次嘗試)、融合(綜合多個(gè)響應(yīng))、批判與排序響應(yīng)、驗(yàn)證輸出(自動(dòng)或手工),這些也是軟歸納偏好方案。
目前看行業(yè)技術(shù)發(fā)展趨勢(shì)是,推理與訓(xùn)練測(cè)試之間的界限正在變得模糊,推理結(jié)果也被反饋到訓(xùn)練測(cè)試過(guò)程中以提升模型能力。
未來(lái)的模型需要無(wú)縫的自我改進(jìn)循環(huán),以持續(xù)增強(qiáng)其能力,類似于人類通過(guò)持續(xù)互動(dòng)和反饋學(xué)習(xí),而非離散的訓(xùn)練階段。軟歸納偏好是很自然的方式。
四、不同層次/尺度語(yǔ)言處理
從語(yǔ)言到認(rèn)知:LLM如何超越人類語(yǔ)言網(wǎng)絡(luò)筆者總結(jié):通過(guò)對(duì)LLM訓(xùn)練過(guò)程中大腦對(duì)齊性的系統(tǒng)分析,揭示了形式語(yǔ)言能力(語(yǔ)法)與功能語(yǔ)言能力(語(yǔ)義)的不同發(fā)展軌跡。
未來(lái)的研究應(yīng)進(jìn)一步擴(kuò)展對(duì)齊性評(píng)估的范圍,探索LLM與其他認(rèn)知網(wǎng)絡(luò)的關(guān)系,并推動(dòng)人工與生物語(yǔ)言處理的深度融合。
Nature人類行為最新一項(xiàng)研究【文獻(xiàn)4】,引入了一個(gè)統(tǒng)一的計(jì)算框架,將聲學(xué)、語(yǔ)音和詞匯層面的語(yǔ)言結(jié)構(gòu)聯(lián)系起來(lái),以研究人類大腦在日常對(duì)話中的神經(jīng)基礎(chǔ)。
方法是:
- 使用皮層電圖記錄參與者在開(kāi)放式現(xiàn)實(shí)生活對(duì)話中的語(yǔ)音產(chǎn)生和理解過(guò)程的神經(jīng)信號(hào);
- 從多模態(tài)語(yǔ)音文本模型(Whisper)中提取低層次的聲學(xué)特征、中層次的語(yǔ)音特征以及上下文詞匯嵌入。
- 開(kāi)發(fā)了編碼模型,將這些嵌入(embedding)線性映射到語(yǔ)音產(chǎn)生和理解過(guò)程中的大腦活動(dòng)上。
Whisper模型捕捉到了在詞匯發(fā)音前(語(yǔ)音產(chǎn)生)的語(yǔ)言到語(yǔ)音編碼的時(shí)間序列,以及發(fā)音后(語(yǔ)音理解)的語(yǔ)音到語(yǔ)言編碼的時(shí)間序列。
值得注意的是,該模型能夠準(zhǔn)確預(yù)測(cè)在未用于模型訓(xùn)練的長(zhǎng)時(shí)間新對(duì)話中,語(yǔ)言處理層次結(jié)構(gòu)中每個(gè)層級(jí)的神經(jīng)活動(dòng)。
模型內(nèi)部的處理層次與大腦皮層中語(yǔ)音和語(yǔ)言處理的層次結(jié)構(gòu)相一致,其中感覺(jué)和運(yùn)動(dòng)區(qū)域與模型的語(yǔ)音嵌入更匹配,而更高層次的語(yǔ)言區(qū)域則與模型的語(yǔ)言嵌入更匹配。
該模型學(xué)習(xí)到的嵌入在捕捉支持自然語(yǔ)音和語(yǔ)言的神經(jīng)活動(dòng)方面優(yōu)于符號(hào)模型。
這些發(fā)現(xiàn)支持了一種范式轉(zhuǎn)變:即采用統(tǒng)一的計(jì)算模型來(lái)捕捉現(xiàn)實(shí)世界對(duì)話中語(yǔ)音理解和產(chǎn)生的整個(gè)處理層次結(jié)構(gòu)。
這也讓DeepSeek R1 或 R2 這樣的大模型,方便地,自下而上切換推理用的自然語(yǔ)言以致符號(hào)語(yǔ)言;或者自上而下地“編譯”并執(zhí)行符號(hào)定義的、或者自然語(yǔ)言描述的推理過(guò)程:
因?yàn)橥评聿贿^(guò)是在LLM構(gòu)建的高維概率語(yǔ)言空間里,對(duì)信息概率分布采樣做變分;
“切換”是將這個(gè)過(guò)程映射到不同的上層自然語(yǔ)言,以及對(duì)應(yīng)的語(yǔ)音,甚至進(jìn)一步映射到某種符號(hào)語(yǔ)言 - 代碼或數(shù)學(xué)公式;
“編譯”則是這一過(guò)程的逆過(guò)程,即將抽象的符號(hào)語(yǔ)言用自然語(yǔ)言描述,或者轉(zhuǎn)換為對(duì)信息概率分布的處理過(guò)程。
AI 之間溝通可以在三個(gè)層次上自由切換,而人類則需要把上下兩層都翻譯成中間的自然語(yǔ)言才能有效溝通和交流,很多情形下會(huì)比AI低效。
我們共同期待一下 DeepSeek R2 吧!
文獻(xiàn)1,Deep Learning is Not So Mysterious or Different,??https://arxiv.org/pdf/2503.02113??
文獻(xiàn)2,F(xiàn)lashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness, ??https://openreview.net/pdf?id=pF2ukh7HxA??
文獻(xiàn)3,Large Language Monkeys: Scaling Inference Compute with Repeated Sampling,??https://arxiv.org/pdf/2407.21787??
文獻(xiàn)4,A unified acoustic-to-speech-to-language embedding space captures the neural basis of natural language processing in everyday conversations,https://www.nature.com/articles/s41562-025-02105-9
本文轉(zhuǎn)載自??清熙??,作者:王慶法
