DeepSeek-R1技術(shù)解碼:如何實(shí)現(xiàn)大模型推理能力的提升?
1月20日,幻方量化旗下AI公司深度求索(DeepSeek)發(fā)布了新一代開源大模型DeepSeek-R1。作為一款專注于推理能力的AI大模型,DeepSeek-R1憑借著成本低、推理能力強(qiáng)等優(yōu)勢,在人工智能領(lǐng)域掀起了千層巨浪,引起了人們的廣泛關(guān)注與討論。
DeepSeek-R1的成功,讓我們更加清晰地認(rèn)識到推理能力在當(dāng)下人工智能發(fā)展中的重要地位。那么,究竟什么是大模型的推理?DeepSeek-R1推理能力強(qiáng)的原因又是什么呢。
如何理解推理大模型??
要解答這些問題,首先需明確大模型中的推理概念。推理,本質(zhì)上是從已知判斷(前提)推導(dǎo)出新判斷(結(jié)論)的思維形式。比如,“法國的首都是什么?”?這類事實(shí)性問題的回答,并不涉及推理過程。而像?“若火車以每小時60公里的速度行駛,3小時后它會行駛多遠(yuǎn)?”?這樣的問題,則需要進(jìn)行一定的簡單推理。在得出答案前,模型需識別距離、速度與時間之間的關(guān)系。
當(dāng)前,多數(shù)大模型已具備基本的推理能力。因此,當(dāng)提及推理大模型時,通常指的是那些在解決難題、謎語以及數(shù)學(xué)證明等更為復(fù)雜的推理任務(wù)中表現(xiàn)出色的大模型。
在推理大模型中,中間步驟的呈現(xiàn)方式主要有兩種。其一,這些中間步驟會被明確地包含在模型的響應(yīng)之中,如DeepSeek會展示思考過程,然后再給出答案;其二,中間步驟不會展示給用戶,而是直接給出答案。
推理大模型擅長復(fù)雜的任務(wù),例如解決難題,高級數(shù)學(xué)問題和具有挑戰(zhàn)性的編碼任務(wù)。但是,對于諸如摘要,翻譯或基于知識的問題回答之類的簡單任務(wù),它們不是必需的。
實(shí)際上,對所有事物使用推理大模型可能效率低下且成本高昂。例如,推理大模型通常使用起來更昂貴,更冗長,有時由于?“過度思考”?而更容易出錯。
上圖:推理大模型的主要優(yōu)勢和局限性
改進(jìn)推理模型的四種策略
值得一提的是,在AI領(lǐng)域擁有超過十年經(jīng)驗的研究者Sebastian?Raschka介紹了改進(jìn)推理模型的4種主要方法。
1)推理時間擴(kuò)展
提高大模型推理能力的一種方法是推理時間擴(kuò)展。該術(shù)語可以具有多種含義,但是在這種情況下,它是指在推理過程中增加計算資源以提高輸出質(zhì)量。
一個粗略的類比是,當(dāng)給予更多時間思考復(fù)雜問題時,人類往往會產(chǎn)生更好的反應(yīng)。同樣,我們可以應(yīng)用一些技巧,鼓勵大模型在回答問題時更多地“思考”。
推理時間擴(kuò)展的一個直接方法是巧妙的提示工程。一個典型的例子是思維鏈?(CoT)?提示,其中像?“一步一步思考”?這樣的短語包含在輸入提示中。這鼓勵模型生成中間推理步驟,而不是直接跳到最終答案,這通常可以在更復(fù)雜的問題上獲得更準(zhǔn)確的結(jié)果。
上述思維鏈方法可以被視為推理時間縮放,因為它通過生成更多的輸出令牌使推理更加昂貴。
另一種推理時間擴(kuò)展方法是使用投票和搜索策略。一個簡單的例子是多數(shù)投票,讓大模型生成多個答案,然后通過多數(shù)投票選擇正確的答案。同樣,可以使用集束搜索和其他搜索算法來生成更好的響應(yīng)。
2)?純強(qiáng)化學(xué)習(xí)?(RL)
Raschka在DeepSeek?R1論文中發(fā)現(xiàn)的亮點(diǎn)之一是他們發(fā)現(xiàn)推理是純強(qiáng)化學(xué)習(xí)?(RL)?的一種行為。
具體而言,DeepSeek開發(fā)了三種類型的R1模型。一是DeepSeek-R1-Zero,建立在DeepSeek-V3基礎(chǔ)模型之上。與典型的RL流程不同,在RL之前應(yīng)用監(jiān)督微調(diào)?(SFT),DeepSeek-R1-Zero僅通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,而沒有初始SFT階段。
盡管如此,該RL過程類似于通常使用的強(qiáng)化學(xué)習(xí)?(RLHF)?方法,其通常應(yīng)用于偏好調(diào)整大模型。
但是,DeepSeek-R1-Zero的關(guān)鍵區(qū)別在于它們跳過了用于指令調(diào)諧的監(jiān)督微調(diào)?(SFT)?階段。這就是為什么將其稱為?“純”?RL。
對于獎勵,他們沒有使用根據(jù)人類偏好訓(xùn)練的獎勵模型,而是采用了兩種類型的獎勵:?準(zhǔn)確性獎勵和格式獎勵。其中,準(zhǔn)確性獎勵使用LeetCode編譯器來驗證編碼答案,并使用確定性系統(tǒng)來評估數(shù)學(xué)響應(yīng)。而格式獎勵則依賴于大模型評委,以確保響應(yīng)遵循預(yù)期的格式,例如將推理步驟放在標(biāo)簽內(nèi)。
3)?監(jiān)督的優(yōu)化和強(qiáng)化學(xué)習(xí)?(SFT?+?RL)
DeepSeek的旗艦推理模型DeepSeek-R1,在DeepSeek-R1-Zero的基礎(chǔ)上進(jìn)行了改進(jìn),加入了額外的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL),以提高其推理性能。
DeepSeek團(tuán)隊使用DeepSeek-R1-Zero生成所謂的?“冷啟動”?SFT數(shù)據(jù)。術(shù)語?“冷啟動”?指的是該數(shù)據(jù)是由DeepSeek-R1-Zero產(chǎn)生的,其本身沒有在任何監(jiān)督微調(diào)?(SFT)?數(shù)據(jù)上訓(xùn)練。
使用這種冷啟動SFT數(shù)據(jù),DeepSeek然后通過指令微調(diào)訓(xùn)練模型,然后是另一個強(qiáng)化學(xué)習(xí)?(RL)?階段。此RL階段保留了DeepSeek-R1-Zero?RL過程中使用的相同準(zhǔn)確性和格式獎勵。但是,他們添加了一致性獎勵以防止語言混合,當(dāng)模型在響應(yīng)中的多種語言之間切換時,就會發(fā)生這種情況。
RL階段之后是另一輪SFT數(shù)據(jù)收集。在此階段,使用最新的模型檢查點(diǎn)生成600k的思想鏈SFT示例,同時使用DeepSeek-V3基礎(chǔ)模型創(chuàng)建了額外的200k基于知識的SFT示例。
然后將這些600k?+?200k?SFT樣本用于指令微調(diào)DeepSeek-V3基,然后再進(jìn)行最后一輪RL。在此階段,他們再次使用基于規(guī)則的方法對數(shù)學(xué)和編碼問題進(jìn)行準(zhǔn)確性獎勵,而人類偏好標(biāo)簽則用于其他問題類型。總而言之,這與常規(guī)RLHF非常相似,除了SFT數(shù)據(jù)包含?(更多)?CoT示例。除了基于人類偏好的獎勵之外,RL還具有可驗證的獎勵。
由于額外的SFT和RL級,最終模型DeepSeek-R1隨著DeepSeek-R1-Zero的推移具有明顯的性能提升。
4)?純監(jiān)督微調(diào)?(SFT)?和蒸餾
DeepSeek團(tuán)隊還發(fā)布了通過他們稱之為蒸餾的過程訓(xùn)練的較小模型。然而,在大模型的背景下,蒸餾不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識蒸餾方法。傳統(tǒng)上,在知識蒸餾中,較小的學(xué)生模型在較大的教師模型和目標(biāo)數(shù)據(jù)集的對數(shù)上進(jìn)行訓(xùn)練。
相反,這里的蒸餾是指在較大的大模型生成的SFT數(shù)據(jù)集上對較小的大模型,如Llama?8B和70B以及?Qwen?2.5模型(0.5B?到?32B),進(jìn)行指令微調(diào)。簡單來說,這些較大的大模型是DeepSeek-V3和?DeepSeek-R1的中間檢查點(diǎn)。事實(shí)上,用于此蒸餾過程的SFT數(shù)據(jù)與用于訓(xùn)練DeepSeek-R1的數(shù)據(jù)集相同。
DeepSeek為什么要開發(fā)蒸餾模型?Raschka認(rèn)為,有兩個關(guān)鍵原因::一是較小的模型效率更高。這意味著它們運(yùn)行起來更便宜,但它們也可以在低端硬件上運(yùn)行。二是純SFT的案例研究。這些蒸餾模型作為一個基準(zhǔn),展示純監(jiān)督微調(diào)?(SFT)?在沒有強(qiáng)化學(xué)習(xí)的情況下可以讓模型走多遠(yuǎn)。
下表比較了這些蒸餾模型與其他流行模型以及DeepSeek-R1-Zero和DeepSeek-R1的性能。
蒸餾模型明顯弱于DeepSeek-R1模型,但與?DeepSeek-R1-Zero相比,它們卻出奇地強(qiáng)大,盡管規(guī)模小了幾個數(shù)量級。
值得一提的是,DeepSeek團(tuán)隊測試了DeepSeek-R1-Zero?中出現(xiàn)的新興推理行為是否也會出現(xiàn)在較小的模型中。為了研究這一點(diǎn),他們將DeepSeek-R1-Zero中相同的純RL方法直接應(yīng)用于Qwen-32B。
實(shí)驗的結(jié)果總結(jié)在下表中,其中QwQ-32B-Preview作為基于Qwen團(tuán)隊開發(fā)的Qwen?2.5?32B的參考推理模型。
結(jié)果表明,對于較小的模型,蒸餾比純強(qiáng)化學(xué)習(xí)更有效。這與以下觀點(diǎn)一致:單靠強(qiáng)化學(xué)習(xí)可能不足以在這種規(guī)模的模型中產(chǎn)生強(qiáng)大的推理能力,而在使用小型模型時,對高質(zhì)量推理數(shù)據(jù)進(jìn)行SFT可能是更有效的策略。
可以說,這四種改進(jìn)推理模型的方法,從不同角度為提升大模型推理能力提供了可行路徑。推理時間擴(kuò)展通過優(yōu)化推理過程中的計算資源與提示方式,增強(qiáng)模型思考深度;純強(qiáng)化學(xué)習(xí)另辟蹊徑,跳過傳統(tǒng)監(jiān)督微調(diào)初始階段,以獨(dú)特獎勵機(jī)制訓(xùn)練模型;監(jiān)督的優(yōu)化和強(qiáng)化學(xué)習(xí)相結(jié)合的方式,在已有模型基礎(chǔ)上多次微調(diào)與強(qiáng)化,逐步提升性能;純監(jiān)督微調(diào)與蒸餾則聚焦于小模型的高效性與對純SFT潛力的挖掘。
寫在最后:
推理大模型不僅是解決復(fù)雜問題、推動各領(lǐng)域技術(shù)創(chuàng)新的關(guān)鍵力量,更是引領(lǐng)人工智能從基礎(chǔ)應(yīng)用邁向深度智能的核心驅(qū)動力。面向未來,隨著技術(shù)的不斷發(fā)展,我們有理由相信將有更多性能出色的大模型,在更多領(lǐng)域綻放光彩,推動人工智能技術(shù)邁向新的高度。