成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek-R1技術(shù)解碼:如何實(shí)現(xiàn)大模型推理能力的提升?

人工智能
DeepSeek-R1的成功,讓我們更加清晰地認(rèn)識到推理能力在當(dāng)下人工智能發(fā)展中的重要地位。那么,究竟什么是大模型的推理?DeepSeek-R1推理能力強(qiáng)的原因又是什么呢。

1月20日,幻方量化旗下AI公司深度求索(DeepSeek)發(fā)布了新一代開源大模型DeepSeek-R1。作為一款專注于推理能力的AI大模型,DeepSeek-R1憑借著成本低、推理能力強(qiáng)等優(yōu)勢,在人工智能領(lǐng)域掀起了千層巨浪,引起了人們的廣泛關(guān)注與討論。

DeepSeek-R1的成功,讓我們更加清晰地認(rèn)識到推理能力在當(dāng)下人工智能發(fā)展中的重要地位。那么,究竟什么是大模型的推理?DeepSeek-R1推理能力強(qiáng)的原因又是什么呢。

如何理解推理大模型??

要解答這些問題,首先需明確大模型中的推理概念。推理,本質(zhì)上是從已知判斷(前提)推導(dǎo)出新判斷(結(jié)論)的思維形式。比如,“法國的首都是什么?”?這類事實(shí)性問題的回答,并不涉及推理過程。而像?“若火車以每小時60公里的速度行駛,3小時后它會行駛多遠(yuǎn)?”?這樣的問題,則需要進(jìn)行一定的簡單推理。在得出答案前,模型需識別距離、速度與時間之間的關(guān)系。

當(dāng)前,多數(shù)大模型已具備基本的推理能力。因此,當(dāng)提及推理大模型時,通常指的是那些在解決難題、謎語以及數(shù)學(xué)證明等更為復(fù)雜的推理任務(wù)中表現(xiàn)出色的大模型。

在推理大模型中,中間步驟的呈現(xiàn)方式主要有兩種。其一,這些中間步驟會被明確地包含在模型的響應(yīng)之中,如DeepSeek會展示思考過程,然后再給出答案;其二,中間步驟不會展示給用戶,而是直接給出答案。

推理大模型擅長復(fù)雜的任務(wù),例如解決難題,高級數(shù)學(xué)問題和具有挑戰(zhàn)性的編碼任務(wù)。但是,對于諸如摘要,翻譯或基于知識的問題回答之類的簡單任務(wù),它們不是必需的。

實(shí)際上,對所有事物使用推理大模型可能效率低下且成本高昂。例如,推理大模型通常使用起來更昂貴,更冗長,有時由于?“過度思考”?而更容易出錯。

上圖:推理大模型的主要優(yōu)勢和局限性

改進(jìn)推理模型的四種策略

值得一提的是,在AI領(lǐng)域擁有超過十年經(jīng)驗的研究者Sebastian?Raschka介紹了改進(jìn)推理模型的4種主要方法。

1)推理時間擴(kuò)展

提高大模型推理能力的一種方法是推理時間擴(kuò)展。該術(shù)語可以具有多種含義,但是在這種情況下,它是指在推理過程中增加計算資源以提高輸出質(zhì)量。

一個粗略的類比是,當(dāng)給予更多時間思考復(fù)雜問題時,人類往往會產(chǎn)生更好的反應(yīng)。同樣,我們可以應(yīng)用一些技巧,鼓勵大模型在回答問題時更多地“思考”。

推理時間擴(kuò)展的一個直接方法是巧妙的提示工程。一個典型的例子是思維鏈?(CoT)?提示,其中像?“一步一步思考”?這樣的短語包含在輸入提示中。這鼓勵模型生成中間推理步驟,而不是直接跳到最終答案,這通常可以在更復(fù)雜的問題上獲得更準(zhǔn)確的結(jié)果。

上述思維鏈方法可以被視為推理時間縮放,因為它通過生成更多的輸出令牌使推理更加昂貴。

另一種推理時間擴(kuò)展方法是使用投票和搜索策略。一個簡單的例子是多數(shù)投票,讓大模型生成多個答案,然后通過多數(shù)投票選擇正確的答案。同樣,可以使用集束搜索和其他搜索算法來生成更好的響應(yīng)。

2)?純強(qiáng)化學(xué)習(xí)?(RL)

Raschka在DeepSeek?R1論文中發(fā)現(xiàn)的亮點(diǎn)之一是他們發(fā)現(xiàn)推理是純強(qiáng)化學(xué)習(xí)?(RL)?的一種行為。

具體而言,DeepSeek開發(fā)了三種類型的R1模型。一是DeepSeek-R1-Zero,建立在DeepSeek-V3基礎(chǔ)模型之上。與典型的RL流程不同,在RL之前應(yīng)用監(jiān)督微調(diào)?(SFT),DeepSeek-R1-Zero僅通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,而沒有初始SFT階段。

盡管如此,該RL過程類似于通常使用的強(qiáng)化學(xué)習(xí)?(RLHF)?方法,其通常應(yīng)用于偏好調(diào)整大模型。

但是,DeepSeek-R1-Zero的關(guān)鍵區(qū)別在于它們跳過了用于指令調(diào)諧的監(jiān)督微調(diào)?(SFT)?階段。這就是為什么將其稱為?“純”?RL。

對于獎勵,他們沒有使用根據(jù)人類偏好訓(xùn)練的獎勵模型,而是采用了兩種類型的獎勵:?準(zhǔn)確性獎勵和格式獎勵。其中,準(zhǔn)確性獎勵使用LeetCode編譯器來驗證編碼答案,并使用確定性系統(tǒng)來評估數(shù)學(xué)響應(yīng)。而格式獎勵則依賴于大模型評委,以確保響應(yīng)遵循預(yù)期的格式,例如將推理步驟放在標(biāo)簽內(nèi)。

3)?監(jiān)督的優(yōu)化和強(qiáng)化學(xué)習(xí)?(SFT?+?RL)

DeepSeek的旗艦推理模型DeepSeek-R1,在DeepSeek-R1-Zero的基礎(chǔ)上進(jìn)行了改進(jìn),加入了額外的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL),以提高其推理性能。

DeepSeek團(tuán)隊使用DeepSeek-R1-Zero生成所謂的?“冷啟動”?SFT數(shù)據(jù)。術(shù)語?“冷啟動”?指的是該數(shù)據(jù)是由DeepSeek-R1-Zero產(chǎn)生的,其本身沒有在任何監(jiān)督微調(diào)?(SFT)?數(shù)據(jù)上訓(xùn)練。

使用這種冷啟動SFT數(shù)據(jù),DeepSeek然后通過指令微調(diào)訓(xùn)練模型,然后是另一個強(qiáng)化學(xué)習(xí)?(RL)?階段。此RL階段保留了DeepSeek-R1-Zero?RL過程中使用的相同準(zhǔn)確性和格式獎勵。但是,他們添加了一致性獎勵以防止語言混合,當(dāng)模型在響應(yīng)中的多種語言之間切換時,就會發(fā)生這種情況。

RL階段之后是另一輪SFT數(shù)據(jù)收集。在此階段,使用最新的模型檢查點(diǎn)生成600k的思想鏈SFT示例,同時使用DeepSeek-V3基礎(chǔ)模型創(chuàng)建了額外的200k基于知識的SFT示例。

然后將這些600k?+?200k?SFT樣本用于指令微調(diào)DeepSeek-V3基,然后再進(jìn)行最后一輪RL。在此階段,他們再次使用基于規(guī)則的方法對數(shù)學(xué)和編碼問題進(jìn)行準(zhǔn)確性獎勵,而人類偏好標(biāo)簽則用于其他問題類型。總而言之,這與常規(guī)RLHF非常相似,除了SFT數(shù)據(jù)包含?(更多)?CoT示例。除了基于人類偏好的獎勵之外,RL還具有可驗證的獎勵。

由于額外的SFT和RL級,最終模型DeepSeek-R1隨著DeepSeek-R1-Zero的推移具有明顯的性能提升。

4)?純監(jiān)督微調(diào)?(SFT)?和蒸餾

DeepSeek團(tuán)隊還發(fā)布了通過他們稱之為蒸餾的過程訓(xùn)練的較小模型。然而,在大模型的背景下,蒸餾不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識蒸餾方法。傳統(tǒng)上,在知識蒸餾中,較小的學(xué)生模型在較大的教師模型和目標(biāo)數(shù)據(jù)集的對數(shù)上進(jìn)行訓(xùn)練。

相反,這里的蒸餾是指在較大的大模型生成的SFT數(shù)據(jù)集上對較小的大模型,如Llama?8B和70B以及?Qwen?2.5模型(0.5B?到?32B),進(jìn)行指令微調(diào)。簡單來說,這些較大的大模型是DeepSeek-V3和?DeepSeek-R1的中間檢查點(diǎn)。事實(shí)上,用于此蒸餾過程的SFT數(shù)據(jù)與用于訓(xùn)練DeepSeek-R1的數(shù)據(jù)集相同。

DeepSeek為什么要開發(fā)蒸餾模型?Raschka認(rèn)為,有兩個關(guān)鍵原因::一是較小的模型效率更高。這意味著它們運(yùn)行起來更便宜,但它們也可以在低端硬件上運(yùn)行。二是純SFT的案例研究。這些蒸餾模型作為一個基準(zhǔn),展示純監(jiān)督微調(diào)?(SFT)?在沒有強(qiáng)化學(xué)習(xí)的情況下可以讓模型走多遠(yuǎn)。

下表比較了這些蒸餾模型與其他流行模型以及DeepSeek-R1-Zero和DeepSeek-R1的性能。

蒸餾模型明顯弱于DeepSeek-R1模型,但與?DeepSeek-R1-Zero相比,它們卻出奇地強(qiáng)大,盡管規(guī)模小了幾個數(shù)量級。

值得一提的是,DeepSeek團(tuán)隊測試了DeepSeek-R1-Zero?中出現(xiàn)的新興推理行為是否也會出現(xiàn)在較小的模型中。為了研究這一點(diǎn),他們將DeepSeek-R1-Zero中相同的純RL方法直接應(yīng)用于Qwen-32B。

實(shí)驗的結(jié)果總結(jié)在下表中,其中QwQ-32B-Preview作為基于Qwen團(tuán)隊開發(fā)的Qwen?2.5?32B的參考推理模型。

結(jié)果表明,對于較小的模型,蒸餾比純強(qiáng)化學(xué)習(xí)更有效。這與以下觀點(diǎn)一致:單靠強(qiáng)化學(xué)習(xí)可能不足以在這種規(guī)模的模型中產(chǎn)生強(qiáng)大的推理能力,而在使用小型模型時,對高質(zhì)量推理數(shù)據(jù)進(jìn)行SFT可能是更有效的策略。

可以說,這四種改進(jìn)推理模型的方法,從不同角度為提升大模型推理能力提供了可行路徑。推理時間擴(kuò)展通過優(yōu)化推理過程中的計算資源與提示方式,增強(qiáng)模型思考深度;純強(qiáng)化學(xué)習(xí)另辟蹊徑,跳過傳統(tǒng)監(jiān)督微調(diào)初始階段,以獨(dú)特獎勵機(jī)制訓(xùn)練模型;監(jiān)督的優(yōu)化和強(qiáng)化學(xué)習(xí)相結(jié)合的方式,在已有模型基礎(chǔ)上多次微調(diào)與強(qiáng)化,逐步提升性能;純監(jiān)督微調(diào)與蒸餾則聚焦于小模型的高效性與對純SFT潛力的挖掘。

寫在最后:

推理大模型不僅是解決復(fù)雜問題、推動各領(lǐng)域技術(shù)創(chuàng)新的關(guān)鍵力量,更是引領(lǐng)人工智能從基礎(chǔ)應(yīng)用邁向深度智能的核心驅(qū)動力。面向未來,隨著技術(shù)的不斷發(fā)展,我們有理由相信將有更多性能出色的大模型,在更多領(lǐng)域綻放光彩,推動人工智能技術(shù)邁向新的高度。

責(zé)任編輯:龐桂玉 來源: 比特網(wǎng)
相關(guān)推薦

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-08 09:44:11

DeepSeekAI模型

2025-02-19 08:00:00

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-02-13 01:00:00

2025-02-12 12:45:59

2025-04-11 14:54:44

2025-02-06 10:18:45

2025-02-03 14:17:27

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-02-17 14:43:51

2025-05-06 09:09:37

2025-02-24 14:05:00

LLM模型AI

2025-03-06 17:29:21

2025-06-06 03:11:00

LangGraphDeepSeek-RRAG

2025-03-19 10:10:43

2025-03-27 10:28:32

2025-05-19 08:41:00

AI模型開發(fā)者
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: av一区二区在线观看 | 成人在线观看黄 | 精品欧美一区二区中文字幕视频 | 久久一| 久久99精品久久久水蜜桃 | 国产视频三区 | 精品国产欧美一区二区 | 国产激情视频在线 | 激情 一区| 欧美韩一区二区三区 | 日韩精品1区2区 | 皇色视频在线 | 国产亚洲欧美在线视频 | 四虎精品在线 | 粉嫩一区二区三区性色av | 天天欧美 | 中文字幕免费观看 | 久久一区二区免费视频 | 羞羞视频免费在线观看 | 亚洲欧美日韩久久 | 成人教育av| 成人在线视频免费观看 | 亚洲大片在线观看 | 色综合色综合 | 午夜免费看| a免费在线 | 国产午夜精品一区二区 | 午夜黄色影院 | 欧美 日韩 国产 在线 | 国产高清在线 | 国产精品视频久久久 | 一区二区三区av | 欧美视频第二页 | 你懂的国产 | 97超碰免费 | 亚洲福利一区 | 国产精品日韩欧美一区二区三区 | 蜜桃av人人夜夜澡人人爽 | 一区二区三区四区电影 | 欧洲一区二区三区 | 在线日韩在线 |