老黃手捧ChatGPT專用「核彈」炸場,英偉達(dá)H100至尊版速度提10倍!
英偉達(dá),贏麻了!
剛剛結(jié)束的GTC大會上,靠著滿屏的「生成式AI」,手握一塊支撐ChatGPT算力、提速10倍的H100 NVLINK芯片,老黃就差把這幾個字寫在臉上——「我是贏家」。
ChatGPT,Microsoft 365, Azure,Stable Diffusion,DALL-E,Midjourney……所有這些時下最紅最爆的AI產(chǎn)品,英偉達(dá)全都能從中分得一杯羹。
今年初ChatGPT在全球的爆火,讓英偉達(dá)股價飆升,市值直接增加700多億美元。目前,英偉達(dá)市值為6400億美元。
而如今,AI的iPhone時刻已經(jīng)到來,第四次科技革命就要開啟,而手握A100和H100的英偉達(dá),或成最大贏家。
在GTC大會上,老黃宣布了英偉達(dá)在GPU、加速庫、計算光刻、云平臺上的亮眼進步,更是放出豪言——英偉達(dá)就是要做AI圈的臺積電!
現(xiàn)在已經(jīng)有人猜測,今天的演講都是在H100上用AIGC模型生成的。
ChatGPT專用GPU已來
這次大會上最重磅的發(fā)布,就是針對ChatGPT打造的NVIDIA H100 NVLINK。
因為算力需求巨大,針對ChatGPT等LLM的推理,英偉達(dá)推出了新款Hopper GPU,配備雙GPU NVLINK的PCIE H100,具有94B內(nèi)存。
事實上,深度學(xué)習(xí)的歷史從2012年之后,就一直與英偉達(dá)息息相關(guān)。
老黃表示,2012年深度學(xué)習(xí)元老Hinton和學(xué)生Alex Kerchevsky、Ilya Suskever在訓(xùn)練AlexNet時,用的正是GeForce GTX 580。
隨后,AlexNet一舉奪得ImageNet圖像分類競賽冠軍,成為了深度學(xué)習(xí)大爆炸的奇點。
而時隔10年,在OpenAI的Ilya Suskever也是用著英偉達(dá)的DGX,訓(xùn)練出了ChatGPT背后的GPT3,及GPT3.5。
老黃自豪地說,目前在云上唯一可以實際處理ChatGPT的GPU,就是HGX A100。
但與A100相比,一臺搭載四對H100和雙GPU NVLINK的服務(wù)器速度還要快上10倍!因為H100可以將LLM的處理成本降低一個數(shù)量級。
隨著生成式AI掀起一波機遇浪潮,AI正處于轉(zhuǎn)折點,使得推理工作負(fù)載呈階梯函數(shù)式增長。
在以前,設(shè)計一個云數(shù)據(jù)中心來處理生成式AI,是巨大的挑戰(zhàn)。
一方面,理想情況下最好使用一種加速器,使數(shù)據(jù)中心具有彈性;但另一方面,沒有一個加速器能以最優(yōu)的方式處理在算法、模型、數(shù)據(jù)類型和大小方面的多樣性。英偉達(dá)的One Architecture平臺就兼具加速功能和彈性。
而今天,英偉達(dá)宣布,推出全新的推理平臺。每種配置都對某類工作負(fù)載進行了優(yōu)化。
比如針對AI視頻工作負(fù)載,英偉達(dá)就推出了L4,在視頻解碼和轉(zhuǎn)碼、視頻內(nèi)容審核、視頻通話功能上做了優(yōu)化。
而一臺8-GPU L4服務(wù)器,將取代一百多臺用于處理AI視頻的雙插槽CPU服務(wù)器。
同時,英偉達(dá)還針對Omniverse、圖形渲染以及文本轉(zhuǎn)圖像/視頻等生成式AI推出了L40。其性能是英偉達(dá)最受歡迎的云推理GPU T4的10倍。
當(dāng)前,Runway推出的Gen-1,以及Gen-2生成式AI模型擁有的強大能力便是借助了英偉達(dá)的GPU。
另外,英偉達(dá)還推出了全新的超級芯片Grace-Hopper,適用于推薦系統(tǒng)和向量數(shù)據(jù)庫。
挑戰(zhàn)芯片極限破,計算光刻提速40倍
在芯片領(lǐng)域,英偉達(dá)聯(lián)合臺積電、ASML和Synopsys,歷時4年終于完成了計算光刻技術(shù)的一項重大突破——NVIDIA cuLitho計算光刻庫。
在到達(dá)2nm制程的極限后,光刻就是突破點。
計算光刻模擬了光通過光學(xué)元件后與光刻膠相互作用時的行為,通過應(yīng)用逆物理算法,我們可以預(yù)測掩膜板上的圖案,以便在晶圓上生成最終圖案。
在芯片設(shè)計和制造領(lǐng)域中,計算光刻是最大的計算工作負(fù)載,每年都要消耗數(shù)百億CPU小時。相比之下,英偉達(dá)創(chuàng)造的這個新算法,可以讓日益復(fù)雜的計算光刻工作流程能夠在GPU上并行執(zhí)行。
總結(jié)來說,cuLitho不僅能使計算速度提升40倍,而且功耗也可以降低9倍之多。
舉個例子,英偉達(dá)的H100需要89塊掩膜板。
如果用CPU進行處理的話,每個掩膜板都需要消耗兩周的時間。而如果在GPU上運行cuLitho,則只需8個小時即可處理完一個掩膜板。
而臺積電也可以用500個DGX H100系統(tǒng)中的4,000個Hopper GPU,完成之前需要多達(dá)40,000臺基于CPU的服務(wù)器才能搞定的工作,并且功率也會從35MW降至5MW。
值得注意的是,cuLitho加速庫與Ampere和Volta架構(gòu)的GPU也是兼容的,不過Hopper是最快的解決方案。
老黃表示,由于光刻技術(shù)已經(jīng)處于物理學(xué)的極限,晶圓廠能夠提高產(chǎn)量,為2nm及以后的發(fā)展做好準(zhǔn)備。
AI的iPhone時刻
這幾個月,ChatGPT以摧枯拉朽之勢,眼看就要掀起第四次科技革命。「我們正處于AI的iPhone時刻」這個說法,也隨之廣泛流傳開。
在GTC大會上,老黃也是激動地把這句話重復(fù)了三遍。
iPhone時刻來臨,初創(chuàng)公司如OpenAI在競相構(gòu)建顛覆性的產(chǎn)品和商業(yè)模式,而谷歌、微軟這樣的老牌公司,則在尋求著應(yīng)對之法。
它們的種種舉動,都是由生成式AI在全球引發(fā)的制定AI戰(zhàn)略的緊迫感。
英偉達(dá)加速計算始于DGX AI超級計算機,這也是當(dāng)前大型語言模型實現(xiàn)突破的背后引擎。
GTC上,老黃自豪地表示,是我親手將全球首款DGX交給了OpenAI。
從那之后,「財富」100強企業(yè)中,其中有一半都安裝了DGXAI超級計算機。
DGX配有8個H100 GPU模組,同時H100配有Transformer引擎,能夠處理ChatGPT這樣令人驚嘆的模型。
8個H100模組通過NVLINK Switch彼此相連,實現(xiàn)了全面無阻塞通信。8個H100協(xié)同工作,就像是一個巨型的GPU。
讓老黃倍感激動的是,微軟宣布Azure將向其H100 AI超級計算機開放私人預(yù)覽版。
并稱,「DGX超計算機是現(xiàn)代AI工廠。我們正處于AI的iPhone時刻。」
一手帶出ChatGPT
過去十年,加速和縱向擴展結(jié)合使各種應(yīng)用實現(xiàn)百萬倍性能提升。
令人印象最深刻的例子,便是2012年,AlexNet深度學(xué)習(xí)框架的提出。
當(dāng)時,Alex Krizhevsky、Ilya Suskever,以及Hinton在GeForce GTX 580上使用了1400萬張圖完成了訓(xùn)練,可處理262千萬億次浮點運算。
十年后,Transformer面世。
Ilya Suskever訓(xùn)練了GPT-3來預(yù)測下一個單詞,需要進行的浮點運算比訓(xùn)練AlexNet模型要多一百萬倍。
由此,創(chuàng)造出了令全世界震驚的AI——ChatGPT。
用老黃的一句話總結(jié):
這意味著嶄新的計算平臺已經(jīng)誕生,AI的「iPhone時刻」已經(jīng)到來。加速計算和AI技術(shù)已經(jīng)走進現(xiàn)實。
加速庫是加速計算的核心。這些加速庫連接了各種應(yīng)用,進而再連接到各行各業(yè),形成了網(wǎng)絡(luò)中的網(wǎng)絡(luò)。
經(jīng)過30年的開發(fā),目前已經(jīng)有數(shù)千款應(yīng)用被英偉達(dá)的庫加速,幾乎涉及科學(xué)和工業(yè)的每個領(lǐng)域。
目前,所有的英偉達(dá)GPU都兼容CUDA。
現(xiàn)有的300個加速庫和400個AI模型覆蓋了量子計算、數(shù)據(jù)處理、機器學(xué)習(xí)等廣泛的領(lǐng)域。
這次GTC大會,英偉達(dá)宣布更新了其中的100個。
英偉達(dá)Quantum平臺由庫和系統(tǒng)組成,可供研究人員推進量子編程模型、系統(tǒng)架構(gòu)和算法。
cuQuantum是用于量子電路仿真的加速庫,其中IBM、百度等公司已經(jīng)將這一加速庫集成到他們的仿真框架中。
Open Quantum CUDA是英偉達(dá)的混合GPU-Quantum編程模型。
英偉達(dá)還宣布推出一個量子控制鏈路,這是與Quantum Machines合作開發(fā)的。它可以將英偉達(dá)GPU連接到量子計算機,以極快的速度進行糾錯。
還有RAFT新庫推出,用于加速索引、數(shù)據(jù)加載和近鄰搜索。
此外,英偉達(dá)還宣布了DGX Quantum,用DGX構(gòu)建,并利用最新開源的CUDA Quantum,這個新平臺為從事量子計算的研究人員提供了一個革命性的高性能和低延遲的架構(gòu)。
英偉達(dá)還推出了NVIDIA Triton Management Service軟件,可在整個數(shù)據(jù)中心自動擴展和編排Triton推理實例。適用于像GPT-3大語言模型的多GPU、多節(jié)點推理。
用于計算機視覺的CV-CUDA和用于視頻處理的VPF是英偉達(dá)新的云規(guī)模加速庫。
老黃宣布CV-CUDA Beta優(yōu)化了預(yù)處理和后處理,實現(xiàn)了更高的云吞吐量,將成本和能耗減少了四分之一。
目前,微軟處理視覺搜索、Runway為其生成式AI視頻處理過程,全都采用了CV-CUDA和VRF庫。
此外,英偉達(dá)加速計算還幫助基因組學(xué)實現(xiàn)了里程碑式發(fā)展。使用英偉達(dá)助力的儀器設(shè)備,將整個基因組測序的成本降低至100美元,成為另一個里程碑。
英偉達(dá)NVIDIA Parabrics加速庫可用于云端或儀器設(shè)備內(nèi)的端到端基因組分析,并且適用于各種公有云和基因組學(xué)平臺。
ChatGPT在跑,英偉達(dá)在賺
現(xiàn)在,ChatGPT、Stable Diffusion、DALL-E和Midjourney,已經(jīng)喚醒了全世界對于生成式AI的認(rèn)知。
當(dāng)紅炸子雞ChatGPT僅在推出2個月后,就月活破億,已經(jīng)成為史上用戶增長最快的應(yīng)用。
可以說,它就是一臺計算機。不僅能生成文本、寫詩、改寫研究論文、解決數(shù)學(xué)問題、甚至還能編程。
眾多突破性成果造就了今天的生成式AI。
Transformer能夠以大規(guī)模并行的方式,從數(shù)據(jù)的關(guān)系和依賴性中學(xué)習(xí)上下文和含義。這使得LLMs能夠利用海量數(shù)據(jù)進行學(xué)習(xí),在沒有明確訓(xùn)練的情況下執(zhí)行下游任務(wù)。
另外,受物理學(xué)啟發(fā)的擴散模型,能夠通過無監(jiān)督學(xué)習(xí)來生成圖像。
老黃總結(jié)道,短短十幾年,我們就從識別貓,跨越到了生成在月球行走的太空服貓的過程。
現(xiàn)在完全可以說,生成式AI就是一種新的計算機,一種可以用人類語言進行編程的計算機。
此前,命令計算機解決問題,是獨屬于程序員的特權(quán),但是如今,人人都可以是程序員了。
和比爾蓋茨一樣,老黃也下了類似的定義:生成式AI是一種新型計算平臺,與PC、互聯(lián)網(wǎng)、移動設(shè)備和云類似。
通過Debuild,我們只要說清楚自己想要什么,就可以直接設(shè)計和部署Web應(yīng)用。
很明顯,生成式AI將幾乎重塑所有行業(yè)。
要做AI界的「臺積電」
在這樣的背景下,專業(yè)公司都需要使用自己的專有數(shù)據(jù),來構(gòu)建定制模型。
接著,老黃自豪宣布,行業(yè)需要一個類似臺積電的代工廠,來構(gòu)建自定義的大語言模型,而英偉達(dá),就是這個「臺積電」!
大會上,英偉達(dá)宣布推出NVIDIA AI Foundations云服務(wù),讓客戶可以定制LLM和生成式AI。
這個云服務(wù)包括語言、視覺和生物學(xué)模型制作服務(wù)。
其中,Nemo用于構(gòu)建定制的語言文本轉(zhuǎn)文本生成式模型。
而Picasso是視覺語言模型制作,可以用于訓(xùn)練自定義模型,包括圖像、視頻和3D應(yīng)用。
只要向Picasso發(fā)送文本提示和元數(shù)據(jù)的API調(diào)用,Picasso就會用DGX Cloud上的模型把生成的素材發(fā)送回應(yīng)用。
更厲害的地方是,把這些素材導(dǎo)入NVIDIA Omniverse,就可以構(gòu)建逼真的元宇宙應(yīng)用,和數(shù)字孿生仿真。
另外,英偉達(dá)還在和Shutterstock合作,開發(fā)Edify-3D生成式模型。
同時,英偉達(dá)和Adobe的合作也繼續(xù)擴展,把生成式AI融入營銷人員和創(chuàng)意人士的日常工作流,并且,尤其注意對于藝術(shù)家版權(quán)的保護。
第三個領(lǐng)域,就是生物學(xué)。
如今,藥物研發(fā)行業(yè)的價值已經(jīng)達(dá)到近2萬億元,研發(fā)投入高達(dá)2500億美元。
NVIDIA Clara就是一款醫(yī)療健康應(yīng)用框架,用于影像、儀器、基因組學(xué)分析和藥物研發(fā)。
而最近,生物圈的熱門方向是利用生成式AI發(fā)現(xiàn)疾病靶因、設(shè)計新分子或蛋白類藥物等。
與之相應(yīng)的,BIONEMO可以讓用戶使用專有數(shù)據(jù)創(chuàng)建、微調(diào)、提供自定義模型,包括AlphaFold、ESMFold、OpenFold等蛋白質(zhì)預(yù)測模型。
最后,老黃總結(jié)道,NVIDIA AI Foundations是一個云服務(wù)和代工廠,用于構(gòu)建自定義語言模型和生成式AI。
老黃云服務(wù),月租36999美元
英偉達(dá)這次,還推出了一款云服務(wù)。
它敏銳地看到客戶需要更簡單快捷訪問NVIDIA AI的需求,因而推出了NVIDIA DGX Cloud。
DGX Cloud與Microsoft Azure、Google GCP和Oracle OCI都有合作。只要一個瀏覽器,NVIDIA DGX AI超級計算機,就能即時接入每家公司!
在這款云上,可以運行NVIDIA AI Enterprise加速庫套件,直接解決AI端到端的開發(fā)和部署。
并且,云上不止提供NVIDIA AI,還有全球最主要的幾大云服務(wù)商。
而英偉達(dá)的第一個NVIDIA DGX Cloud,就是Oracle Cloud Infrastructure(OCI)。
在OCI中,NVIDIA CX-7和BlueField-3兩個王炸合體,立馬組合出一臺強力超算。
據(jù)介紹,企業(yè)現(xiàn)在可以租用DGX Cloud,月租36999美元起。
最后,當(dāng)然還是每年GTC大會的保留節(jié)目——Omniverse。老黃宣布了關(guān)于元宇宙平臺Omniverse更新。
現(xiàn)在,Microsoft和NVIDIA,正準(zhǔn)備將Omniverse帶給數(shù)以億計的Microsoft 365和Azure用戶。
此外,還有消息稱:老黃為了能讓H100合規(guī)地出口中國,便照著之前A800的經(jīng)驗特調(diào)了一款「H800」,將芯片之間的數(shù)據(jù)傳輸率降到了H100的50%左右。
總結(jié)來說,老黃在這次的大會已經(jīng)相當(dāng)明確,英偉達(dá)要做AI領(lǐng)域的臺積電,像晶圓廠一樣提供代工,在此基礎(chǔ)上讓行業(yè)內(nèi)其他公司訓(xùn)練算法。
這種商業(yè)模式,能成功嗎?