成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何在本地運(yùn)行量化版的DeepSeek-R1-0528? 原創(chuàng)

發(fā)布于 2025-6-16 08:08
瀏覽
0收藏

本文介紹了使用Ollama和WebUI 在本地運(yùn)行量化版的 DeepSeek-R1-0528 模型。

DeepSeek-R1-0528是DeepSeek R1 推理模型的最新版本,需要715GB的磁盤空間,使其成為市面上最大的開(kāi)源模型之一。然而由于來(lái)自Unsloth 的先進(jìn)的量化技術(shù),該模型的大小可以縮減至162GB,整整縮減了80%。這使得用戶能夠以顯著降低的硬件要求體驗(yàn)?zāi)P偷娜抗δ埽M管性能略有下降。

在本教程中,我們將:

  • 設(shè)置Ollama和Open Web UI,以便在本地運(yùn)行DeepSeek-R1-0528 模型。
  • 下載并配置該模型的 1.78 位量化版(IQ1_S)。
  • 使用GPU + CPU和純CPU兩種配置環(huán)境運(yùn)行該模型。

先決條件?

要運(yùn)行IQ1_S 量化版本,你的系統(tǒng)必須滿足以下要求:

  • GPU要求:至少1個(gè)24GB GPU(比如英偉達(dá)RTX 4090或A6000)和128GB RAM。在此配置下,預(yù)期生成速度約為每秒5個(gè)token。
  • RAM要求:運(yùn)行該模型至少需要64GB RAM;可以不使用 GPU 運(yùn)行該模型,但性能將限制為每秒1個(gè)token。
  • 最佳設(shè)置:為了獲得最佳性能(每秒5個(gè)以上token),你至少需要180GB的統(tǒng)一內(nèi)存或180GB的RAM + VRAM組合內(nèi)存。
  • 存儲(chǔ):確保你至少有200GB的可用磁盤空間用于模型及其依賴項(xiàng)。

第1步:安裝依賴項(xiàng)和Ollama

更新你的系統(tǒng)并安裝所需的工具。Ollama是一款輕量級(jí)服務(wù)器,用于在本地運(yùn)行大語(yǔ)言模型。在Ubuntu 發(fā)行版上使用以下命令安裝它:

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

第2步:下載并運(yùn)行模型

使用以下命令運(yùn)行DeepSeek-R1-0528 模型的 1.78 位量化版本(IQ1_S):

ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

如何在本地運(yùn)行量化版的DeepSeek-R1-0528?-AI.x社區(qū)

第3步:設(shè)置并運(yùn)行Open Web UI

拉取支持CUDA的Open Web UI Docker鏡像。運(yùn)行支持GPU并集成Ollama的Open Web UI 容器。

該命令將:

  • 在8080端口啟動(dòng)Open Web UI服務(wù)器
  • 使用--gpus all 標(biāo)志,啟用GPU加速
  • 掛載必要的數(shù)據(jù)目錄(-v open-webui:/app/backend/data)
docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda

一旦容器運(yùn)行,在瀏覽器中訪問(wèn)Open Web UI 界面:http://localhost:8080/。

第4步:在Open Web UI中運(yùn)行DeepSeek R1 0528

從模型菜單中選擇hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0模型。

如何在本地運(yùn)行量化版的DeepSeek-R1-0528?-AI.x社區(qū)

如果Ollama服務(wù)器無(wú)法正確使用GPU,你可以切換到CPU執(zhí)行。雖然這會(huì)顯著降低性能(大約每秒1個(gè)token),但可以確保模型仍然能夠運(yùn)行。

# Kill any existing Ollama processes
pkill ollama 

# Clear GPU memory
sudo fuser -v /dev/nvidia* 

# Restart Ollama service
CUDA_VISIBLE_DEVICES="" ollama serve

一旦模型運(yùn)行,你可以通過(guò)Open Web UI與其交互。但請(qǐng)注意,由于缺乏GPU加速,速度將被限制為每秒1個(gè)token。

如何在本地運(yùn)行量化版的DeepSeek-R1-0528?-AI.x社區(qū)

結(jié)語(yǔ)?

即使運(yùn)行量化版本也頗具挑戰(zhàn)性。你需要快速的網(wǎng)絡(luò)連接來(lái)下載模型,如果下載失敗,必須從頭開(kāi)始整個(gè)過(guò)程。我在試著在GPU上運(yùn)行時(shí)也遇到了很多問(wèn)題,我一直收到與VRAM 不足相關(guān)的GGUF錯(cuò)誤。盡管嘗試了幾種常見(jiàn)的GPU錯(cuò)誤修復(fù)方法,但都不起作用,于是我最終把一切都切換到了CPU。雖然這確實(shí)有效,但現(xiàn)在模型僅僅生成響應(yīng)就需要大約10分鐘,這遠(yuǎn)非理想狀態(tài)。

我相信肯定有更好的解決方案,比如使用llama.cpp,但相信我,我花了一整天才讓它運(yùn)行起來(lái)。

原文標(biāo)題:??Run the Full DeepSeek-R1-0528 Model Locally??,作者:Abid Ali Awan

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产视频福利 | 亚洲精品久 | 精品欧美一区二区在线观看视频 | 日韩a在线 | 国产精品成人69xxx免费视频 | 国产电影一区二区在线观看 | 天天操操| 欧美日韩中文在线观看 | 91极品尤物在线播放国产 | av国产精品| 欧美亚洲综合久久 | 99热在线免费 | 欧美日韩亚洲一区 | 国产一区二区成人 | 99热精品在线 | 在线免费黄色小视频 | 在线一区 | 天天干狠狠 | 国产成人99久久亚洲综合精品 | 免费看色 | 在线免费看毛片 | 天天躁日日躁狠狠躁2018小说 | 欧美精品电影一区 | 国产视频中文字幕 | 亚洲欧美一区二区三区在线 | 国产成人精品网站 | 伦理午夜电影免费观看 | 国产视频精品在线观看 | 国产欧美一区二区在线观看 | 久久国产精品一区二区三区 | 亚洲精品乱码久久久久久按摩观 | 欧美国产日本一区 | 亚洲a视频 | 国产精品99久久久久久动医院 | 亚洲欧美一区二区三区国产精品 | 欧美日韩一| 一级毛片观看 | 日韩福利| 成人精品久久 | 成人精品视频99在线观看免费 | 亚洲国产一区二区三区 |