成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%

發布于 2025-2-12 13:13
瀏覽
0收藏

DeepSeek-R1 模型的出現引起了廣泛關注,眾多開源復現項目紛紛涌現(Open-R1、simpleRL-reason、Tiny-Zero、Mini-R1等)。然而,受 GPU 條件的限制,有些小伙伴可能無法順利運行這些項目。今天,我們就來介紹一個神奇的工具 ——Unsloth AI,它可以幫助我們在有限的資源下訓練自己的 DeepSeek-R1 推理模型,特別是通過 GRPO(Group Relative Policy Optimization)技術,實現了資源的大幅降低。

1. Unsloth AI 的神奇之處

1.1 GRPO 技術簡介

GRPO 是一種強化學習算法,它與依賴價值函數的近端策略優化(PPO)不同,不需要價值函數就能有效優化響應。它的工作原理是讓模型生成多組響應,然后根據正確性或其他設定的獎勵函數對每個響應進行評分,計算組平均分數,并將每個回答的分數與組平均分數進行比較,最后模型會得到強化,以支持得分更高的反應。

1.2 資源大幅降低

Unsloth AI 通過對整個 GRPO 流程的增強,使其使用的 VRAM比 Hugging Face + FA2 少 80%。這意味著,我們可以使用更少的硬件資源來訓練自己的 DeepSeek-R1 推理模型。例如,使用 Qwen2.5(1.5B)模型,僅需要 7GB 的 VRAM 就可以重現 R1-Zero 的 “頓悟時刻”,這對于那些沒有強大 GPU 支持的用戶來說,無疑是一個巨大的福音。

2. 訓練自己的 DeepSeek-R1 推理模型

2.1 模型支持與參數要求

  • 模型范圍:Unsloth AI 可以將多種模型轉換為推理模型,包括 Llama 3.1(8B)、Phi-4(14B)、Mistral(7B)、Qwen2.5(7B)等,只要這些模型的參數不超過 15B。
  • 參數建議:為了正確生成思考標記,建議將 GRPO 應用于至少 1.5B 參數的模型。如果使用的是基礎模型,需要確保有一個聊天模板。

2.2 訓練過程與注意事項

  • 訓練流程

數據收集:開始訓練前,需要準備好輸入和輸出數據,例如問題和答案。這些數據將用于模型的訓練,幫助模型學習如何進行推理。

模型訓練:使用 Unsloth AI 提供的工具和接口,將準備好的數據輸入到模型中進行訓練。在訓練過程中,模型會根據 GRPO 算法不斷調整自己的參數,以提高推理能力。

結果評估:訓練完成后,需要對模型的推理結果進行評估。可以通過與已知的正確答案進行比較,來評估模型的準確性和可靠性。

  • 注意事項

獎勵函數設計:在訓練過程中,需要設計合適的獎勵函數來激勵模型的推理行為。例如,如果模型給出了正確答案,可以給予獎勵;如果模型出現錯誤或不合理的回答,可以給予懲罰。這樣可以引導模型學習到正確的推理方式。

訓練時間:為了獲得良好的訓練結果,需要訓練300步,12 個小時。Unsloth AI 在 Colab 上的示例只訓練了一個小時,因此結果可能低于標準。

軟件依賴:如果在本地使用 GRPO,需要確保已經安裝了 “pip install diffusers”。

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%-AI.x社區

3. GRPO 的神奇效果

3.1 “頓悟時刻” 重現

DeepSeek 的研究人員在使用純強化學習(RL)訓練 R1-Zero 時觀察到了 “頓悟時刻”,模型學會了通過重新評估其初始方法延長其思考時間,而無需任何人工指導或預定義指令。通過 Unsloth AI 使用 GRPO 訓練模型,也可以重現這種神奇的效果。例如,在一個測試示例中,對于 “Which is bigger? 9.11 or 9.9?” 這個問題,使用 GRPO 訓練的 Phi-4 模型能夠給出正確答案,而沒有使用 GRPO 訓練的模型則沒有思考標記和正確答案。

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%-AI.x社區

3.2 推理能力培養

GRPO 算法可以引導模型自動展示推理能力并創建推理軌跡。例如,對于 “1 + 1 等于多少?”“2 + 2 等于多少?” 這樣的簡單數學問題,模型可以通過逐步的計算和思考,給出正確的答案。這表明,通過 GRPO 訓練,模型可以學習到如何進行推理,從而提高自己的智能水平。

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%-AI.x社區

4. Unsloth AI 的其他優勢

4.1 吞吐量與 VRAM 節省

Unsloth AI 使用 vLLM 直接在微調堆棧中,實現了 20 倍的吞吐量提升和 50% 的 VRAM 節省。在 1x A100 40GB 顯卡上,Unsloth 的動態 4 位量化 Llama 3.2 3B Instruct 模型可以達到每秒 4000 個token左右的生成速度,而在 16GB Tesla T4(免費 Colab GPU)上,可以達到每秒 300 個token。此外,Unsloth 還神奇地消除了加載 vLLM 和 Unsloth 時的雙重內存使用,為 Llama 3.1 8B 節省了約 5GB 的內存,為 Llama 3.2 3B 節省了約 3GB 的內存。

7G顯存,訓練自己的 DeepSeek-R1:GRPO 資源下降80%-AI.x社區

4.2 vLLM 的特點

  • 動態量化:vLLM 可以動態地將模型的某些層量化為 4 位,某些層量化為 16 位,這樣可以在保持模型較小的同時,顯著提高模型的準確性。
  • 參數優化:vLLM 可以自動選擇多個參數來優化內存、VRAM 效率和最大吞吐量,例如調整分塊預填充令牌的數量、最大序列數等。
  • 性能提升

默認設置:vLLM 默認啟用 - O3 優化,并啟用前綴緩存,以提高模型的性能。

硬件加速:在舊顯卡上,Flashinfer 可能會比 vLLM 慢 10%。此外,FP8 KV 緩存會使事情變慢 10%,但可以使吞吐量潛力翻倍。

  • LoRA 支持:vLLM 允許通過解析狀態字典而不是從磁盤加載來加載 LoRA,這可以使 GRPO 訓練運行速度提高 1.5 倍。

5. 小結

Unsloth AI 的出現為我們訓練自己的 DeepSeek-R1 推理模型提供了一個強大的工具,特別是通過 GRPO 技術,實現了資源的大幅降低,讓更多人能夠參與到人工智能的研究和應用中。同時,Unsloth AI 還具有其他諸多優勢,如吞吐量提升、VRAM 節省和 vLLM 的特點等。

本文轉載自??鴻煊的學習筆記??,作者: 乘風破浪jxj ????


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲视频中文字幕 | 亚洲精品一 | 一级毛片视频 | 久久久精品综合 | 一区免费看| 欧美精品综合在线 | av播播 | 国产乱码一二三区精品 | 亚洲精彩免费视频 | www.狠狠干 | 亚洲国产一区二区三区在线观看 | 亚洲国产一区视频 | 久久久免费观看视频 | 99热首页| 国产激情三区 | 精品久久久网站 | 91在线视频播放 | 精品国产一区二区三区久久久蜜月 | 久久久久久网站 | 黄网站涩免费蜜桃网站 | 91亚洲一区| 欧美福利在线 | 中文字幕第一页在线 | 超碰在线人人 | 中文字幕乱码一区二区三区 | 激情毛片| 亚洲aⅴ| 精品视频一区二区 | 久久精品国产一区二区电影 | 亚洲免费在线视频 | 亚洲视频一区在线观看 | www.色综合 | 亚洲午夜网 | 亚洲精品电影 | 亚洲国产免费 | 婷婷精品| 三区四区在线观看 | 依人成人| 久久精品国产亚洲一区二区 | 精品国产乱码久久久久久丨区2区 | 中文字幕av高清 |