云計算與大模型訓練的結合 原創
“ 我們要學會使用第三方的大模型平臺,而不是什么都從0開始 ”
大模型從出現以來,其巨大的成本問題一直都是壓在很多企業頭上的一座山;但大模型作為一項基礎設施,理論上應該和現有的基礎設施相結合,比如說云計算平臺。
根據云計算的思想,除了實現快速部署遷移以及龐大的網絡洪峰之外;其次最重要的一點就是提升資源的利用率;比如對很多公司來說,流量洪峰主要都集中在某些時間段,大部分時間的流量都比較平穩。
因此,如果按照最高峰值部署服務器,那么就會造成巨大的浪費;因此,云計算的用武之地就出現了;因為云計算快速動態擴/縮容的機制,導致其能夠更好地利用空閑資源。
云上的大模型
大模型由于其巨大的體量,以及參數和數據;對一家企業來說,要想設計訓練出一個屬于自己的模型,就需要購買大量的算力資源——也就是GPU。
但GPU的價格問題使得企業面臨著巨大的成本壓力;因此,購買或租用別人的算力,就成了一個比較好的選擇。在需要算力的時候就租用別人的算力,再不需要的時候就可以把算力給釋放掉;這樣既節省了成本,也提升了資源的利用率。
而由于云計算的諸多特性,比如快速擴容,集群,調度等等;使得把大模型搬到云上就是一個很好的選擇。
今天在看騰訊云平臺的時候,發現其提供了大量與大模型訓練,微調,部署相關的功能;其不但提供了算力支持,同時還封裝了很多與大模型訓練,微調,部署相關的工具包,加速器等工具。
其上不但可以部署自定義的大模型,而且其官方還提供了大量的預制基礎模型鏡像;用戶可以通過這些鏡像做上層的訓練與部署開發。
如上圖所示,這種功能大大降低了大模型的訓練和微調成本;不但是資金成本,同樣還包括技術成本;因為其封裝了大量的基礎功能,只需要通過簡單的命令或API以及SDK集成即可使用。
這種方式,不但降低了企業的使用成本,對于對大模型技術感興趣的個人技術人員,或者學習大模型技術的人;也同樣讓他們有機會設計和訓練部署屬于自己的大模型。
當然,提供這種云上大模型服務的企業不僅僅騰訊一家;國內還包括阿里,華為等多家云服務商;而國外包括微軟,谷歌等都提供了類型的功能模塊,方便大家使用。
因此,特別是對一些大模型應用領域的創業者來說,這種云上模型解決了底層模型的很多問題,節省了大量的時間;使得創業者可以專注于自己的產品和功能實現;而不用把大量的時間浪費在大模型的底層架構上。
所以說,對企業和創業者來說,一定要弄清楚自己的定位;到底是想做技術,還是做產品,還是做服務;不同的定位,需要關注不同的技術點和業務環節。
因此,隨著社會的發展,社會分工變得越來越細;每個人都應該找準自己的定位,然后深入的鉆研下去;而不是在不同的領域里反復橫跳。
本文轉載自公眾號AI探索時代 作者:DFires
