工作站才是端側大模型的“快樂老家”

作者：劉文軒 2023-10-31 17:26:09

大家恐怕早就忘了，工作站作為一種專業的高性能終端設備，在更早的時候就已經承載了大模型的應用。當前的工作站已經可以勝任部分對算力要求不是很高的輕度訓練工作，所以來說，運行更不會是什么問題。

你在Mac上召喚過Siri嗎？我反正一次也沒有過。

這個被稱為AI界“老前輩”的虛擬助理，在iPhone上的人氣就不溫不火，Mac上更是毫無存在感。然而ChatGPT出現后，它在手機上僅有的一點存在感也被進一步拉低了。

眼看就要到11月，ChatGPT上線一周年的日子也不遠了。這一年我們見識了生成式人工智能驚人的迭代速度，也讓大模型幾乎貫穿了這一整年的熱門話題。從一開始如何用ChatGPT到“百模大戰”，再到行業大模型，如今終于討論到端側大模型，可主角卻是手機？甚至還有人為此感嘆：“2024年將是端側大模型元年”……

等等！難道“端側大模型”只包括手機嗎？

當然，包括工作站在內，任何桌面設備都擁有一個強大的互聯網入口——網頁瀏覽器，你可以用它訪問各種在線大模型服務，但是和本地部署大模型相比，在線服務還是有太多限制：

生成數量，很多在線服務需要消耗大量的算力資源，同時也需要依靠收入來維持運營，所以通常會對免費用戶采取各種限制措施。例如免費版ChatGPT只能使用GPT 3.5生成的內容，而且限制速度。如果使用工作站本地部署，只需要消耗本地算力資源，當然也無需進一步的額外付費。

自由度，在線服務需要考慮到所在云服務的技術、條款、各地法規限制，有時用戶生成內容可能被提醒違規，有的付費服務也會遇到生成速度緩慢、卡頓、生成失敗等問題，用戶能做的也只有刷新頁面、重新輸入指令。使用工作站本地部署的大模型，可以盡情發揮想象，會影響體驗的因素通常只有硬件配置了。

生成時間，在線服務需要經由廣域網傳輸指令和生成內容，不僅受云服務的性能影響，網絡訪問速度也是影響生成速度的另一個關鍵因素，如果是免費用戶，或是服務使用人數過多時，可能還需要排隊。使用工作站本地部署則不需要考慮這些問題，如果指令包含一些敏感信息，在本地操作也是更安全的方式。

本地部署大模型有這么多好處，所以一些略懂技術知識的專業工作者也已經嘗試在自己的工作站上部署大模型了。目前可以在工作站上部署的大模型已經有很多，Stable Diffusion和Llama 2就是最知名的兩個。

在文生圖領域，Stable Diffusion的名字很響亮，母公司Stability AI還陸續開源了Stable DiffusionV1、StableLM、Stable Diffusion XL等模型，更讓它在文生圖領域站穩腳跟。

對于個人用戶來說，在工作站上部署和使用Stable Diffusion略有門檻，而且你的設備必須使用NVIDIA顯卡，至少需要GT1060，顯存在4G以上，設備的內存要在16G或以上，運行Windows 10或Windows 11系統，安裝只需要執行以下三步：

配置環境，你需要創建Python環境，在基于此創建Stable Diffusion的用戶界面，安裝cuda等等操作；

配置Stable Diffusion，你需要下載源碼，克隆Stable Diffusion WebUI項目，下載Stable Diffusion訓練模型；

執行Stable Diffusion，通過運行Stable Diffusion WebUI就能開始你的AI繪圖之旅啦！

Stable Diffusion在圖像生成領域大顯身手的同時，Stability AI并沒有閑下來，甚至開始涉足聊天機器人領域。今年8月，Stability AI推出一款名為“Stable Chat”的聊天機器人，功能類似OpenAI的ChatGPT，不過它采用的大語言模型Stable Beluga則是以兩代Llama為基礎開發的。

Llama是Meta推出的大語言模型，可以理解和生成各種領域的自然語言文本，由于是一款開源產品，Llama 2也被魔改成了各種版本的大語言模型。和Stable Diffusion一樣，你也可以把它部署在工作站上使用。

運行Llama 2同樣需要使用NVIDIA顯卡，最常見的是使用GeForce RTX 3090，擁有24GB內存，可以運行4位量化的LLaMA 30B模型，每秒大約處理4到10個令牌。在Windows系統安裝需要執行下面這些步驟：

下載模型，你需要先在Meta官網填寫資料并獲取密鑰，然后在LLaMA的GitHub庫來克隆項目庫，運行download.sh腳本，輸入密鑰之后才能獲取模型的文件；

轉換模型，使用text-generation-webui方式部署，但由于格式不同，則需要先進行轉換；

搭建text-generation-webui，在Github克隆text-generation-webui的項目，將huggingface格式文件放入models中，命名一下文件夾，就完成部署了。

這時候你需要通過命令行執行text-generation-webui來與Llama2模型對話，也可以進一步利用text-generation-webui的API，使Llama 2能夠在YourChat客戶端上執行。

本地部署Llama 2相當于在你的設備里安裝了一個反應迅速，并且可以暢所欲言的聊天機器人。的確，你也可以在Mac上和Siri暢所欲言，只是它未必能給你很好的回應。

不過，要只是把它與Siri這樣的虛擬助理做對比，就太屈才了！Mac上的Siri幾乎沒什么存在感，手機上的也沒強多少。你有沒有發現蘋果這兩年都沒怎么提Siri了？其實在ChatGPT出現后，就已經有傳聞稱蘋果正在給Siri憋個大招，這個“大招”就是端側大模型。

雖然很多手機廠商都在探索端側大模型，但至少從現階段來看，在專業領域的應用上，手機端側大模型還難以復制工作站上的體驗，畢竟兩者之間的算力和價格都相差太過懸殊。

工作站價格不菲，使用工作站部署的大模型，能做到的也遠不止于簡單的對話，它還可以用于災難響應、交通管理、醫療咨詢等領域。遺憾的是，目前這些大模型的部署依然存在一定的技術門檻，甚至連啟動都要通過命令行完成，對于沒有相關技術背景的使用者而言，體驗簡直一塌糊涂。這種時候，像YourChat這樣的產品簡直就像一縷曙光，讓習慣使用圖形用戶界面的一般人可以在一個“正常”的窗口中與Llama 2對話。

相信伴隨著端側大模型越來越受到關注，未來一定會出現更便利的部署和使用方式，或是像Autodesk、Adobe那樣融入到不同的軟件當中，讓使用者把更多精力放在工作內容上。

未來，當工作站上的大模型在更多專業領域發揮作用時，那些部署在手機上的“瘦身版”大模型，也將真正成為消費級產品的智能中樞，不再是被遺忘的Siri。

責任編輯：姜華來源：至頂網

工作站大模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

工作站才是端側大模型的“快樂老家”