英偉達發(fā)布ChatGPT專用GPU,推理速度提升了10倍
曾何幾時,人工智能因為算力不足進入了長達數(shù)十年的瓶頸,GPU 點燃了深度學習。在 ChatGPT 時代,AI 因為大模型再次面臨算力不足的問題,這一次英偉達還有辦法嗎?
3 月 22 日,GTC 大會正式召開,在剛剛進行的 Keynote 上,英偉達 CEO 黃仁勛搬出了為 ChatGPT 準備的芯片。
「加速計算并非易事,2012 年,計算機視覺模型 AlexNet 動用了 GeForce GTX 580,每秒可處理 262 PetaFLOPS。該模型引發(fā)了 AI 技術的爆炸,」黃仁勛說道。「十年之后,Transformer 出現(xiàn)了,GPT-3 動用了 323 ZettaFLOPS 的算力,是 AlexNet 的 100 萬倍,創(chuàng)造了 ChatGPT 這個震驚全世界的 AI。嶄新的計算平臺出現(xiàn)了,AI 的 iPhone 時代已經來臨?!?/span>
AI 的繁榮推動英偉達股價在今年上漲了 77%,目前,英偉達的市值為 6400 億美元,已是英特爾的近五倍。不過今天的發(fā)布告訴我們,英偉達的腳步還沒有停。
為 AIGC 設計專用算力
生成式 AI(AIGC )的發(fā)展正在改變科技公司對于算力的需求,英偉達一次展示了四種針對 AI 任務的推理平臺,它們都使用了統(tǒng)一的架構。
其中,NVIDIA L4 提供「比 CPU 高 120 倍的 AI 驅動視頻性能,以及 99% 的能源效率」,可以用于視頻流、編碼和解碼以及生成 AI 視頻等工作;算力更強的 NVIDIA L40 則專門用于 2D/3D 圖像生成。
針對算力需求巨大的 ChatGPT,英偉達發(fā)布了 NVIDIA H100 NVL,這是一種具有 94GB 內存和加速 Transformer Engine 的大語言模型(LLM)專用解決方案,配備了雙 GPU NVLINK 的 PCIE H100 GPU。
「當前唯一可以實際處理 ChatGPT 的 GPU 是英偉達 HGX A100。與前者相比,現(xiàn)在一臺搭載四對 H100 和雙 NVLINK 的標準服務器速度能快 10 倍,可以將大語言模型的處理成本降低一個數(shù)量級,」黃仁勛說道。
最后還有 NVIDIA Grace Hopper for Recommendation Models,除了為推薦任務優(yōu)化之外,它還可以為圖形神經網絡和矢量數(shù)據庫提供動力。
讓芯片突破物理極限
當前,半導體的生產工藝已經逼近物理學所能達到的極限。2nm 制程之后,突破點又是什么?英偉達決定從芯片制造的最原始階段 —— 光刻入手。
從根本上說,這是一個物理極限下的成像問題。在先進制程下,芯片上的許多特征會小于打印過程中使用的光的波長,掩模的設計必須不斷進行修改,這一步驟稱為光學鄰近校正。計算光刻模擬了光通過原件與光刻膠相互作用時的行為,這些行為是根據麥克斯韋方程描述的,這是芯片設計制造領域中需要算力最多的任務。
黃仁勛在 GTC 上宣布了一項名為 CuLitho 的新技術,用以加快半導體的設計和制造。該軟件使用英偉達芯片來加速基于軟件的芯片設計,并加速用于在芯片上打印該設計的光刻掩模的物理制造之間的步驟。
CuLitho 在 GPU 上運行,其性能比目前的光刻技術提高了 40 倍,可以加速目前每年消耗數(shù)百億個 CPU 小時的大規(guī)模計算工作負載。「造 H100 需要 89 塊掩膜版,在 CPU 上運算時一塊就得算兩個星期,但如果用 H100 在 CuLitho 上運行就只需要 8 個小時,」黃仁勛說道。
這意味著 500 個英偉達 DGX H100 系統(tǒng)就能夠替代 4 萬個 CPU 系統(tǒng)的工作,并運行計算光刻工藝的所有部分,幫助減少電力需求和對環(huán)境的潛在影響。
這一進展將使芯片的晶體管和電路比現(xiàn)在尺寸更小,同時加快了芯片的上市時間,并提高為推動制造過程而全天候運行的大規(guī)模數(shù)據中心的能源效率。
英偉達表示,它正在與 ASML、Synopsys 和臺積電合作,將該技術推向市場。據介紹,臺積電將在 6 月開始準備該技術的試產。
「芯片行業(yè)是世界上幾乎所有其他行業(yè)的基礎,」黃仁勛表示?!赣捎诠饪碳夹g已處于物理學的極限,通過 CuLitho 以及與我們的合作伙伴臺積電、ASML 和 Synopsys 的合作,晶圓廠能夠提高產量,減少碳足跡,并為 2nm 及以后的發(fā)展奠定基礎?!?/span>
首個 GPU 加速的量子計算系統(tǒng)
在今天的活動中,英偉達還宣布了一個使用 Quantum Machines 構建的新系統(tǒng),該系統(tǒng)為從事高性能和低延遲量子經典計算的研究人員提供了一種革命性的新架構。
作為全球首個 GPU 加速的量子計算系統(tǒng),NVIDIA DGX Quantum 將全球最強大的加速計算平臺(由 NVIDIA Grace Hopper 超級芯片和 CUDA Quantum 開源編程模型實現(xiàn))與全球最先進的量子控制平臺 OPX(由 Quantum Machines 提供)相結合。這種組合使研究人員能夠建立空前強大的應用,將量子計算與最先進的經典計算相結合,實現(xiàn)校準、控制、量子糾錯和混合算法。
DGX Quantum 的核心是一個由 PCIe 連接到 Quantum Machines OPX + 的 NVIDIA Grace Hopper 系統(tǒng),實現(xiàn)了 GPU 和量子處理單元(QPU)之間的亞微秒級延遲。
英偉達公司 HPC 和量子主管 Tim Costa 表示:「量子加速的超級計算有可能重塑科學和工業(yè),英偉達 DGX Quantum 將使研究人員能夠突破量子 - 經典計算的界限?!?/span>
對此,英偉達將高性能的 Hopper 架構 GPU 與該公司的新 Grace CPU 整合為「Grace Hopper」,為巨型 AI 和 HPC 應用提供了超強的動力。它為運行 TB 級數(shù)據的應用提供了高達 10 倍的性能,為量子 - 經典研究人員解決世界上最復雜的問題提供了更多動力。
DGX Quantum 還為開發(fā)者配備了英偉達 CUDA Quantum,這是一個強大的統(tǒng)一軟件棧,現(xiàn)在已經開放了源代碼了。CUDA Quantum 是一個混合型量子 - 經典計算平臺,能夠在一個系統(tǒng)中整合和編程 QPU、GPU 和 CPU。
每月 3.7 萬美元,網頁上訓練自己的 ChatGPT
微軟斥資數(shù)億美元購買了數(shù)萬塊 A100 構建了 GPT 專用超算,你現(xiàn)在可能會想要租用 OpenAI 和微軟訓練 ChatGPT 和必應搜索相同的 GPU 來訓練自己的大模型。
英偉達提出的 DGX Cloud 提供了專用的 NVIDIA DGX AI 超級計算集群,搭配 NVIDIA AI 軟件,該服務使每個企業(yè)都可以使用簡單的網絡瀏覽器訪問 AI 超算,消除了獲取、部署和管理本地基礎設施的復雜性。
據介紹,每個 DGX Cloud 實例都具有八個 H100 或 A100 80GB Tensor Core GPU,每個節(jié)點共有 640GB GPU 內存。使用 NVIDIA Networking 構建的高性能、低延遲結構確保工作負載可以跨互連系統(tǒng)集群擴展,允許多個實例充當一個巨大的 GPU,以滿足高級 AI 訓練的性能要求。
現(xiàn)在,企業(yè)可以按月租用 DGX Cloud 集群,快速輕松地擴展大型多節(jié)點訓練工作負載的開發(fā),而無需等待通常需求量很大的加速計算資源。
而月租的價格,據黃仁勛介紹,每個實例每月 36999 美元起。
「我們正處于人工智能的 iPhone 時刻,」黃仁勛表示:「初創(chuàng)公司競相打造出了顛覆性產品和商業(yè)模式,而現(xiàn)有企業(yè)也在尋求回應。DGX Cloud 讓客戶能夠即時訪問全球規(guī)模的云中的 NVIDIA AI 超級計算。」
為了幫助企業(yè)迎接生成式 AI 的浪潮,英偉達同時宣布了一系列云服務,讓企業(yè)能夠構建、改進定制的大型語言模型和生成式 AI 模型。
現(xiàn)在,人們可以使用 NVIDIA NeMo 語言服務和 NVIDIA Picasso 圖像、視頻和 3D 服務來構建專有的、特定領域的生成式 AI 應用程序,用于智能對話和客戶支持、專業(yè)內容創(chuàng)建、數(shù)字模擬等。另外,英偉達還宣布了 NVIDIA BioNeMo 生物學云服務的新模型。
「生成式 AI 是一種新型計算機,可以用人類的自然語言進行編程。這種能力影響深遠 —— 每個人都可以命令計算機來解決問題,而此前不久,這還是程序員們的專利,」黃仁勛說道。
從今天的發(fā)布內容看來,英偉達不僅正在針對科技公司的 AI 負載不斷改進硬件設計,也在提出新的商業(yè)模式。在一些人看來,英偉達是想做「AI 領域的臺積電」:像晶圓廠一樣提供先進生產力代工服務,幫助其他公司在其之上訓練各自特定場景的 AI 算法。
用英偉達的超算訓練,直接省去中間商賺差價,會是未來 AI 發(fā)展的方向嗎?