DeepSeek-R1技術(shù)解碼：如何實(shí)現(xiàn)大模型推理能力的提升？

作者：Yu 2025-02-13 08:51:23

DeepSeek-R1的成功，讓我們更加清晰地認(rèn)識到推理能力在當(dāng)下人工智能發(fā)展中的重要地位。那么，究竟什么是大模型的推理？DeepSeek-R1推理能力強(qiáng)的原因又是什么呢。

1月20日，幻方量化旗下AI公司深度求索(DeepSeek)發(fā)布了新一代開源大模型DeepSeek-R1。作為一款專注于推理能力的AI大模型，DeepSeek-R1憑借著成本低、推理能力強(qiáng)等優(yōu)勢，在人工智能領(lǐng)域掀起了千層巨浪，引起了人們的廣泛關(guān)注與討論。

如何理解推理大模型？?

要解答這些問題，首先需明確大模型中的推理概念。推理，本質(zhì)上是從已知判斷(前提)推導(dǎo)出新判斷(結(jié)論)的思維形式。比如，“法國的首都是什么？”?這類事實(shí)性問題的回答，并不涉及推理過程。而像?“若火車以每小時60公里的速度行駛，3小時后它會行駛多遠(yuǎn)？”?這樣的問題，則需要進(jìn)行一定的簡單推理。在得出答案前，模型需識別距離、速度與時間之間的關(guān)系。

當(dāng)前，多數(shù)大模型已具備基本的推理能力。因此，當(dāng)提及推理大模型時，通常指的是那些在解決難題、謎語以及數(shù)學(xué)證明等更為復(fù)雜的推理任務(wù)中表現(xiàn)出色的大模型。

在推理大模型中，中間步驟的呈現(xiàn)方式主要有兩種。其一，這些中間步驟會被明確地包含在模型的響應(yīng)之中，如DeepSeek會展示思考過程，然后再給出答案;其二，中間步驟不會展示給用戶，而是直接給出答案。

推理大模型擅長復(fù)雜的任務(wù)，例如解決難題，高級數(shù)學(xué)問題和具有挑戰(zhàn)性的編碼任務(wù)。但是，對于諸如摘要，翻譯或基于知識的問題回答之類的簡單任務(wù)，它們不是必需的。

實(shí)際上，對所有事物使用推理大模型可能效率低下且成本高昂。例如，推理大模型通常使用起來更昂貴，更冗長，有時由于?“過度思考”?而更容易出錯。

上圖：推理大模型的主要優(yōu)勢和局限性

改進(jìn)推理模型的四種策略

值得一提的是，在AI領(lǐng)域擁有超過十年經(jīng)驗的研究者Sebastian?Raschka介紹了改進(jìn)推理模型的4種主要方法。

1)推理時間擴(kuò)展

提高大模型推理能力的一種方法是推理時間擴(kuò)展。該術(shù)語可以具有多種含義，但是在這種情況下，它是指在推理過程中增加計算資源以提高輸出質(zhì)量。

一個粗略的類比是，當(dāng)給予更多時間思考復(fù)雜問題時，人類往往會產(chǎn)生更好的反應(yīng)。同樣，我們可以應(yīng)用一些技巧，鼓勵大模型在回答問題時更多地“思考”。

推理時間擴(kuò)展的一個直接方法是巧妙的提示工程。一個典型的例子是思維鏈?(CoT)?提示，其中像?“一步一步思考”?這樣的短語包含在輸入提示中。這鼓勵模型生成中間推理步驟，而不是直接跳到最終答案，這通常可以在更復(fù)雜的問題上獲得更準(zhǔn)確的結(jié)果。

上述思維鏈方法可以被視為推理時間縮放，因為它通過生成更多的輸出令牌使推理更加昂貴。

另一種推理時間擴(kuò)展方法是使用投票和搜索策略。一個簡單的例子是多數(shù)投票，讓大模型生成多個答案，然后通過多數(shù)投票選擇正確的答案。同樣，可以使用集束搜索和其他搜索算法來生成更好的響應(yīng)。

2)?純強(qiáng)化學(xué)習(xí)?(RL)

Raschka在DeepSeek?R1論文中發(fā)現(xiàn)的亮點(diǎn)之一是他們發(fā)現(xiàn)推理是純強(qiáng)化學(xué)習(xí)?(RL)?的一種行為。

具體而言，DeepSeek開發(fā)了三種類型的R1模型。一是DeepSeek-R1-Zero，建立在DeepSeek-V3基礎(chǔ)模型之上。與典型的RL流程不同，在RL之前應(yīng)用監(jiān)督微調(diào)?(SFT)，DeepSeek-R1-Zero僅通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，而沒有初始SFT階段。

盡管如此，該RL過程類似于通常使用的強(qiáng)化學(xué)習(xí)?(RLHF)?方法，其通常應(yīng)用于偏好調(diào)整大模型。

但是，DeepSeek-R1-Zero的關(guān)鍵區(qū)別在于它們跳過了用于指令調(diào)諧的監(jiān)督微調(diào)?(SFT)?階段。這就是為什么將其稱為?“純”?RL。

對于獎勵，他們沒有使用根據(jù)人類偏好訓(xùn)練的獎勵模型，而是采用了兩種類型的獎勵：?準(zhǔn)確性獎勵和格式獎勵。其中，準(zhǔn)確性獎勵使用LeetCode編譯器來驗證編碼答案，并使用確定性系統(tǒng)來評估數(shù)學(xué)響應(yīng)。而格式獎勵則依賴于大模型評委，以確保響應(yīng)遵循預(yù)期的格式，例如將推理步驟放在標(biāo)簽內(nèi)。

3)?監(jiān)督的優(yōu)化和強(qiáng)化學(xué)習(xí)?(SFT?+?RL)

DeepSeek的旗艦推理模型DeepSeek-R1，在DeepSeek-R1-Zero的基礎(chǔ)上進(jìn)行了改進(jìn)，加入了額外的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)，以提高其推理性能。

DeepSeek團(tuán)隊使用DeepSeek-R1-Zero生成所謂的?“冷啟動”?SFT數(shù)據(jù)。術(shù)語?“冷啟動”?指的是該數(shù)據(jù)是由DeepSeek-R1-Zero產(chǎn)生的，其本身沒有在任何監(jiān)督微調(diào)?(SFT)?數(shù)據(jù)上訓(xùn)練。

使用這種冷啟動SFT數(shù)據(jù)，DeepSeek然后通過指令微調(diào)訓(xùn)練模型，然后是另一個強(qiáng)化學(xué)習(xí)?(RL)?階段。此RL階段保留了DeepSeek-R1-Zero?RL過程中使用的相同準(zhǔn)確性和格式獎勵。但是，他們添加了一致性獎勵以防止語言混合，當(dāng)模型在響應(yīng)中的多種語言之間切換時，就會發(fā)生這種情況。

RL階段之后是另一輪SFT數(shù)據(jù)收集。在此階段，使用最新的模型檢查點(diǎn)生成600k的思想鏈SFT示例，同時使用DeepSeek-V3基礎(chǔ)模型創(chuàng)建了額外的200k基于知識的SFT示例。

然后將這些600k?+?200k?SFT樣本用于指令微調(diào)DeepSeek-V3基，然后再進(jìn)行最后一輪RL。在此階段，他們再次使用基于規(guī)則的方法對數(shù)學(xué)和編碼問題進(jìn)行準(zhǔn)確性獎勵，而人類偏好標(biāo)簽則用于其他問題類型。總而言之，這與常規(guī)RLHF非常相似，除了SFT數(shù)據(jù)包含?(更多)?CoT示例。除了基于人類偏好的獎勵之外，RL還具有可驗證的獎勵。

由于額外的SFT和RL級，最終模型DeepSeek-R1隨著DeepSeek-R1-Zero的推移具有明顯的性能提升。

4)?純監(jiān)督微調(diào)?(SFT)?和蒸餾

DeepSeek團(tuán)隊還發(fā)布了通過他們稱之為蒸餾的過程訓(xùn)練的較小模型。然而，在大模型的背景下，蒸餾不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識蒸餾方法。傳統(tǒng)上，在知識蒸餾中，較小的學(xué)生模型在較大的教師模型和目標(biāo)數(shù)據(jù)集的對數(shù)上進(jìn)行訓(xùn)練。

相反，這里的蒸餾是指在較大的大模型生成的SFT數(shù)據(jù)集上對較小的大模型，如Llama?8B和70B以及?Qwen?2.5模型(0.5B?到?32B)，進(jìn)行指令微調(diào)。簡單來說，這些較大的大模型是DeepSeek-V3和?DeepSeek-R1的中間檢查點(diǎn)。事實(shí)上，用于此蒸餾過程的SFT數(shù)據(jù)與用于訓(xùn)練DeepSeek-R1的數(shù)據(jù)集相同。

DeepSeek為什么要開發(fā)蒸餾模型？Raschka認(rèn)為，有兩個關(guān)鍵原因：：一是較小的模型效率更高。這意味著它們運(yùn)行起來更便宜，但它們也可以在低端硬件上運(yùn)行。二是純SFT的案例研究。這些蒸餾模型作為一個基準(zhǔn)，展示純監(jiān)督微調(diào)?(SFT)?在沒有強(qiáng)化學(xué)習(xí)的情況下可以讓模型走多遠(yuǎn)。

下表比較了這些蒸餾模型與其他流行模型以及DeepSeek-R1-Zero和DeepSeek-R1的性能。

蒸餾模型明顯弱于DeepSeek-R1模型，但與?DeepSeek-R1-Zero相比，它們卻出奇地強(qiáng)大，盡管規(guī)模小了幾個數(shù)量級。

值得一提的是，DeepSeek團(tuán)隊測試了DeepSeek-R1-Zero?中出現(xiàn)的新興推理行為是否也會出現(xiàn)在較小的模型中。為了研究這一點(diǎn)，他們將DeepSeek-R1-Zero中相同的純RL方法直接應(yīng)用于Qwen-32B。

實(shí)驗的結(jié)果總結(jié)在下表中，其中QwQ-32B-Preview作為基于Qwen團(tuán)隊開發(fā)的Qwen?2.5?32B的參考推理模型。

結(jié)果表明，對于較小的模型，蒸餾比純強(qiáng)化學(xué)習(xí)更有效。這與以下觀點(diǎn)一致：單靠強(qiáng)化學(xué)習(xí)可能不足以在這種規(guī)模的模型中產(chǎn)生強(qiáng)大的推理能力，而在使用小型模型時，對高質(zhì)量推理數(shù)據(jù)進(jìn)行SFT可能是更有效的策略。

可以說，這四種改進(jìn)推理模型的方法，從不同角度為提升大模型推理能力提供了可行路徑。推理時間擴(kuò)展通過優(yōu)化推理過程中的計算資源與提示方式，增強(qiáng)模型思考深度;純強(qiáng)化學(xué)習(xí)另辟蹊徑，跳過傳統(tǒng)監(jiān)督微調(diào)初始階段，以獨(dú)特獎勵機(jī)制訓(xùn)練模型;監(jiān)督的優(yōu)化和強(qiáng)化學(xué)習(xí)相結(jié)合的方式，在已有模型基礎(chǔ)上多次微調(diào)與強(qiáng)化，逐步提升性能;純監(jiān)督微調(diào)與蒸餾則聚焦于小模型的高效性與對純SFT潛力的挖掘。

寫在最后：

推理大模型不僅是解決復(fù)雜問題、推動各領(lǐng)域技術(shù)創(chuàng)新的關(guān)鍵力量，更是引領(lǐng)人工智能從基礎(chǔ)應(yīng)用邁向深度智能的核心驅(qū)動力。面向未來，隨著技術(shù)的不斷發(fā)展，我們有理由相信將有更多性能出色的大模型，在更多領(lǐng)域綻放光彩，推動人工智能技術(shù)邁向新的高度。

責(zé)任編輯：龐桂玉來源：比特網(wǎng)