成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

7G顯存，訓練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學習筆記

發布于 2025-2-12 13:13

瀏覽

0收藏

DeepSeek-R1 模型的出現引起了廣泛關注，眾多開源復現項目紛紛涌現（Open-R1、simpleRL-reason、Tiny-Zero、Mini-R1等）。然而，受 GPU 條件的限制，有些小伙伴可能無法順利運行這些項目。今天，我們就來介紹一個神奇的工具 ——Unsloth AI，它可以幫助我們在有限的資源下訓練自己的 DeepSeek-R1 推理模型，特別是通過 GRPO（Group Relative Policy Optimization）技術，實現了資源的大幅降低。

1. Unsloth AI 的神奇之處

1.1 GRPO 技術簡介

GRPO 是一種強化學習算法，它與依賴價值函數的近端策略優化（PPO）不同，不需要價值函數就能有效優化響應。它的工作原理是讓模型生成多組響應，然后根據正確性或其他設定的獎勵函數對每個響應進行評分，計算組平均分數，并將每個回答的分數與組平均分數進行比較，最后模型會得到強化，以支持得分更高的反應。

1.2 資源大幅降低

Unsloth AI 通過對整個 GRPO 流程的增強，使其使用的 VRAM比 Hugging Face + FA2 少 80%。這意味著，我們可以使用更少的硬件資源來訓練自己的 DeepSeek-R1 推理模型。例如，使用 Qwen2.5（1.5B）模型，僅需要 7GB 的 VRAM 就可以重現 R1-Zero 的 “頓悟時刻”，這對于那些沒有強大 GPU 支持的用戶來說，無疑是一個巨大的福音。

2. 訓練自己的 DeepSeek-R1 推理模型

2.1 模型支持與參數要求

模型范圍：Unsloth AI 可以將多種模型轉換為推理模型，包括 Llama 3.1（8B）、Phi-4（14B）、Mistral（7B）、Qwen2.5（7B）等，只要這些模型的參數不超過 15B。
參數建議：為了正確生成思考標記，建議將 GRPO 應用于至少 1.5B 參數的模型。如果使用的是基礎模型，需要確保有一個聊天模板。

2.2 訓練過程與注意事項

訓練流程

數據收集：開始訓練前，需要準備好輸入和輸出數據，例如問題和答案。這些數據將用于模型的訓練，幫助模型學習如何進行推理。

模型訓練：使用 Unsloth AI 提供的工具和接口，將準備好的數據輸入到模型中進行訓練。在訓練過程中，模型會根據 GRPO 算法不斷調整自己的參數，以提高推理能力。

結果評估：訓練完成后，需要對模型的推理結果進行評估。可以通過與已知的正確答案進行比較，來評估模型的準確性和可靠性。

注意事項

獎勵函數設計：在訓練過程中，需要設計合適的獎勵函數來激勵模型的推理行為。例如，如果模型給出了正確答案，可以給予獎勵；如果模型出現錯誤或不合理的回答，可以給予懲罰。這樣可以引導模型學習到正確的推理方式。

訓練時間：為了獲得良好的訓練結果，需要訓練300步，12 個小時。Unsloth AI 在 Colab 上的示例只訓練了一個小時，因此結果可能低于標準。

軟件依賴：如果在本地使用 GRPO，需要確保已經安裝了 “pip install diffusers”。

7G顯存，訓練自己的 DeepSeek-R1：GRPO 資源下降80%-AI.x社區

3. GRPO 的神奇效果

3.1 “頓悟時刻” 重現

DeepSeek 的研究人員在使用純強化學習（RL）訓練 R1-Zero 時觀察到了 “頓悟時刻”，模型學會了通過重新評估其初始方法延長其思考時間，而無需任何人工指導或預定義指令。通過 Unsloth AI 使用 GRPO 訓練模型，也可以重現這種神奇的效果。例如，在一個測試示例中，對于 “Which is bigger? 9.11 or 9.9?” 這個問題，使用 GRPO 訓練的 Phi-4 模型能夠給出正確答案，而沒有使用 GRPO 訓練的模型則沒有思考標記和正確答案。

7G顯存，訓練自己的 DeepSeek-R1：GRPO 資源下降80%-AI.x社區

3.2 推理能力培養

GRPO 算法可以引導模型自動展示推理能力并創建推理軌跡。例如，對于 “1 + 1 等于多少？”“2 + 2 等于多少？” 這樣的簡單數學問題，模型可以通過逐步的計算和思考，給出正確的答案。這表明，通過 GRPO 訓練，模型可以學習到如何進行推理，從而提高自己的智能水平。

7G顯存，訓練自己的 DeepSeek-R1：GRPO 資源下降80%-AI.x社區

4. Unsloth AI 的其他優勢

4.1 吞吐量與 VRAM 節省

Unsloth AI 使用 vLLM 直接在微調堆棧中，實現了 20 倍的吞吐量提升和 50% 的 VRAM 節省。在 1x A100 40GB 顯卡上，Unsloth 的動態 4 位量化 Llama 3.2 3B Instruct 模型可以達到每秒 4000 個token左右的生成速度，而在 16GB Tesla T4（免費 Colab GPU）上，可以達到每秒 300 個token。此外，Unsloth 還神奇地消除了加載 vLLM 和 Unsloth 時的雙重內存使用，為 Llama 3.1 8B 節省了約 5GB 的內存，為 Llama 3.2 3B 節省了約 3GB 的內存。

7G顯存，訓練自己的 DeepSeek-R1：GRPO 資源下降80%-AI.x社區

4.2 vLLM 的特點

動態量化：vLLM 可以動態地將模型的某些層量化為 4 位，某些層量化為 16 位，這樣可以在保持模型較小的同時，顯著提高模型的準確性。
參數優化：vLLM 可以自動選擇多個參數來優化內存、VRAM 效率和最大吞吐量，例如調整分塊預填充令牌的數量、最大序列數等。
性能提升

默認設置：vLLM 默認啟用 - O3 優化，并啟用前綴緩存，以提高模型的性能。

硬件加速：在舊顯卡上，Flashinfer 可能會比 vLLM 慢 10%。此外，FP8 KV 緩存會使事情變慢 10%，但可以使吞吐量潛力翻倍。

LoRA 支持：vLLM 允許通過解析狀態字典而不是從磁盤加載來加載 LoRA，這可以使 GRPO 訓練運行速度提高 1.5 倍。

5. 小結

Unsloth AI 的出現為我們訓練自己的 DeepSeek-R1 推理模型提供了一個強大的工具，特別是通過 GRPO 技術，實現了資源的大幅降低，讓更多人能夠參與到人工智能的研究和應用中。同時，Unsloth AI 還具有其他諸多優勢，如吞吐量提升、VRAM 節省和 vLLM 的特點等。

本文轉載自??鴻煊的學習筆記??，作者：乘風破浪jxj ????

標簽

贊

收藏

回復

舉報

回復

相關推薦

DeepSeek-AI 發布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 4239瀏覽 ? 0回復
DeepSeek-R1：通過強化學習激發大語言模型的推理潛能

柏企閱文 ? 4702瀏覽 ? 0回復
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 5745瀏覽 ? 0回復
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術，為何震動了全球 AI 圈

玄姐聊AGI ? 8005瀏覽 ? 1回復
Unsloth：僅需7GB顯存就能訓練自己的DeepSeek-R1！

PyTorch研習社 ? 3948瀏覽 ? 0回復
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms ? 3096瀏覽 ? 0回復
滿血DeepSeek-R1免費用！附帶數據蒸餾的一些想法！

NLP工作站 ? 3105瀏覽 ? 0回復
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 2304瀏覽 ? 0回復
Unsloth開源新算法：讓GRPO訓練大模型所需顯存降低90%，告別顯存焦慮！

sbf_2000 ? 3218瀏覽 ? 0回復
白嫖資源訓練 DeepSeek R1 推理模型

AIGC前沿技術追蹤 ? 3992瀏覽 ? 0回復
Grok 3 與 DeepSeek-R1 是怎么學會思考的？

機器學習與數學 ? 3591瀏覽 ? 0回復
白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

后向傳播 ? 3993瀏覽 ? 0回復
在消費級硬件上微調 DeepSeek-R1

AIGC前沿技術追蹤 ? 2338瀏覽 ? 0回復
Vision-R1：多模態領域的DeepSeek R1-Zero，7B參數比肩OpenAI O1

Syrupup ? 2419瀏覽 ? 0回復
DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路

大模型自然語言處理 ? 2500瀏覽 ? 0回復
DeepSeek-R1關鍵創新技術再總結

大模型自然語言處理 ? 2987瀏覽 ? 0回復
Deepseek-R1，論文番外篇!

NLP前沿1 ? 1386瀏覽 ? 0回復
GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進

后向傳播 ? 2137瀏覽 ? 0回復
一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法

鴻煊的學習筆記 ? 3089瀏覽 ? 0回復

鴻煊的學習筆記

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

大模型訓練流程及 SFT、RLHF 作用簡述 6h前發布
RLHF 核心算法解析：從 DPO 到 DAPO 的大模型對齊技術演進 6h前發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇： Model2Vec：RAG 加速新引擎，模型瘦身15倍，速度提升500倍，最新emb benchmark

下一篇：一文讀懂 PPO 與 GRPO：LLM 訓練的關鍵算法

社區精華內容

目錄

主站蜘蛛池模板：亚洲视频中文字幕 | 亚洲精品一 | 一级毛片视频 | 久久久精品综合 | 一区免费看| 欧美精品综合在线 | av播播 | 国产乱码一二三区精品 | 亚洲精彩免费视频 | www.狠狠干 | 亚洲国产一区二区三区在线观看 | 亚洲国产一区视频 | 久久久免费观看视频 | 99热首页| 国产激情三区 | 精品久久久网站 | 91在线视频播放 | 精品国产一区二区三区久久久蜜月 | 久久久久久网站 | 黄网站涩免费蜜桃网站 | 91亚洲一区| 欧美福利在线 | 中文字幕第一页在线 | 超碰在线人人 | 中文字幕乱码一区二区三区 | 激情毛片| 亚洲aⅴ| 精品视频一区二区 | 久久精品国产一区二区电影 | 亚洲免费在线视频 | 亚洲视频一区在线观看 | www.色综合 | 亚洲午夜网 | 亚洲精品电影 | 亚洲国产免费 | 婷婷精品| 三区四区在线观看 | 依人成人| 久久精品国产亚洲一区二区 | 精品国产乱码久久久久久丨区2区 | 中文字幕av高清 |