剛剛，老黃攜GB300震撼登場！DeepSeek推理暴漲40倍加速全球最快，26年Rubin問世

作者：新智元 2025-03-19 09:37:25

人工智能新聞

萬眾矚目的Blackwell Ultra終于登場亮相，專為DeepSeek R1這樣的推理模型打造，性能直達Hoper的40倍！而下一代GPU「Rubin」，將于2026年下半年問世。這次，老黃的金句直接升級為「買得越多，賺得越多」。

全世界都錯了，Scaling Law并沒有撞墻！

GTC大會上，老黃這樣向全世界這樣宣布。

更令人矚目的是，DeepSeek R1推動的推理時Scaling，讓Scaling Law出現了全新的發展路線。

剛剛在圣何塞結束的GTC大會上，老黃聲稱沒有腳本、沒有提詞器，用兩個多小時向我們介紹了英偉達過去一年的進展。

老黃表示，如果說從前的GTC說AI的伍德斯托克音樂節，那今年搬進體育場的GTC就是AI的超級碗，而唯一不同的說，每個人都是超級碗的贏家。

全場精彩亮點如下：

Blackwell已全面投產，而且進展非常快，客戶需求也非常大。這一切皆是因為AI拐點已至，訓練推理AI/智能體系統對計算量的需求大大增加。
Blackwell NVL72結合Dynamo推理性能提升了40倍，相當于一座Hopper AI工廠的性能。
英偉達未來三年路線圖已公開，GPU每年一更：Blackwell Ultra預計2025年下半年上市，下一代Rubin 2026年問世。
英偉達正在構建3個AI基礎設施：云上AI基礎設施，企業AI基礎設施和機器人AI基礎設施。

英偉達預言：在未來，每個擁有工廠的公司將來都會有兩個工廠，一個是用來制造產品的實體工廠，另一個是用于數學運算的AI工廠。為此，各類CUDA-X軟件庫已經準備好，引爆全行業的變革。

而這場革命的背后，就是英偉達的CUDA核心，以及為之配備的驚人算力。

AI芯片每年一更，下一代Rubin明年亮相

隨著Blackwell GPU的全面發貨，老黃也按照慣例發布了接下來幾款新產品的路線圖。

首先，是對訓練和測試時推理能力進行大幅提升，并將在今年下半年問世的Blackwell Ultra。

根據英偉達官方博客介紹，Blackwell已經讓DeepSeek-R1打破了推理性能的世界紀錄。

而與Blackwell相比，Blackwell Ultra芯片還有超強進化！

它的顯存從192GB提升到了288GB。而GB300 NVL72的AI性能，則比NVIDIA GB200 NVL72高出1.5倍。

接下來，是最為重磅的Vera Rubin，預計在2026年下半年發布。

這個命名致敬的是發現暗物質的天文學家Vera Rubin。

Vera Rubin有兩個部分，一個稱為Vera的CPU和一個稱為Rubin的新GPU。

兩部分一同使用時，Rubin可以在推理時實現每秒50千萬億次浮點運算，比Blackwell速度高出一倍多。

顯存方面，Rubin將升級為HBM4，容量仍然為288GB。

不過，Rubin的帶寬將會有大幅升級，從原來的8TB/s提高到13TB/s，提高了1.6倍。

不僅如此，NVIDIA還會為Rubin擴展NVLink，將其吞吐量提升到260TB/s，直接翻倍！

機架間的全新CX9鏈路達到了28.8TB/s。

不僅有標準版Rubin，老黃現場還推出了Rubin Ultra版本。

Rubin Ultra NVL576在FP4精度下進行推理任務時，性能達到了15 ExaFLOPS，在FP8精度下進行訓練任務時，性能為5 ExaFLOPS。相比GB300 NVL72性能有14倍的提升。

配備HBM4e內存，帶寬為4.6 PB/s，支持 NVLink 7，帶寬為1.5 PB/s，較上一代提升12倍。

Rubin Ultra NVL576機架支持CX9，帶寬為達到了115.2 TB/s，較上一代提升了8倍。

預計在2027年下半年推出。

Blackwell NVLink72和Rubin NVLink 576尺寸最直觀的對比，再一次證明了需要在scale up之前，先要完成scale out。

可以看到浮點運算能力，Hopper架構是1倍提升，Blackwell 68倍提升，到了Rubin直接躍升至900倍。

另外總擁有成本（TCO），也在隨著架構迭代大幅降低。

那么，英偉達是如何實現scale up？

主要是通過網絡InfiniBand和Spectrum X。后者具備了低延遲和擁塞控制特性，并且成功scale up有史以來最大的單GPU集群。

不僅如此，英偉達還希望在Rubin時間框架內，將GPU的數量擴展至數十萬個。而這一目標實現的主要挑戰在于，大規模連接的問題。

值得一提的是，老黃官宣了英偉達首個共封裝硅光子系統，也是世界上第一個每秒1.6T的CPO。

它基于一種「微環諧振器調制器」的技術（micro ring resonator modulator），并使用了臺積電工藝技術構建。

現在，具備了將硅光子學與共封裝的結合，無需使用收發器，直接接入光線，并將其集成到512徑基數的交換機中。

這樣，便能夠輕輕動動擴展至數十萬，甚至百萬GPU規模。

至于再下一代，則是將于2028年上市的Feynman（費曼）。

該命名致敬了美國著名理論物理學家Richard Feynman。

桌面級「黃金超算」，AI算力20000 TFLOPS

蘋果這個月剛剛發布能跑6000億參數的Mac Studio，反身又要被英偉達超越了。

今天，老黃正式推出Blackwell RTX PRO工作站和服務器系列，專為開發者、創意工作者、數據科學家構建和協作提供全方位的AI支持。

具體來說，它包括了數據中心GPU、桌面GPU，以及筆記本GPU。

這些GPU能夠提供卓越的性能、效率，解鎖生成式AI、智能體AI和物理AI的巨大潛力。

RTX PRO 6000 Blackwell采用了英偉達流式多處理器提供高達1.5倍吞吐量，第五代Tensor Core支持高達每秒4000萬億次AI運算，第四代RT Core性能提升高達前一代的2倍。

不僅如此，老黃還帶來了兩款由Blackwell驅動的DGX個人桌面AI超級計算機。

一個是DGX Spark（原名Project DIGITS），另一個是DGX Station。

老黃稱，「AI已經改變了計算堆棧的每一層，理所當然就會出新一類的計算機——專為AI原生開發者設計，并運行AI原生程序」。

這兩款桌面超級計算機，便是這樣的存在。

DGX Spark可以稱得上，世界上最小的AI超級計算機，配備128GB內存。

核心是GB10 Grace Blackwell超級芯片，能夠提供每秒高達1000萬億次操作的AI計算能力，可以用于微調和推理模型。

DGX Station則將數據中心級別的性能，帶到每個人桌面用于AI開發。

作為首款采用GB300 Grace Blackwell Ultra桌面超級芯片構建的系統，DGX Station配備了高達784GB的統一內存，以加速大規模訓練和推理工作負載。

如下是Blackwell驅動下，所有英偉達DGX家族。

Scaling Law沒撞墻，2028年數據中心將達一萬億！

開場時，老黃手舉GeForce 5090，和4090做了對比，它的體積小了30%，性能的提升卻難以置信。

GeForce將CUDA帶給了全世界，而CUDA開啟了AI，而AI又反過來改變了計算機圖形學。

如今大火的則是智能體AI，它可以感知、理解、推理，還能計劃行動，使用工具，自己訪問網站去學習。

而接下來，就是物理AI，它將理解物理世界，理解摩擦、慣性、因果關系。它使機器人技術成為可能。

而這次大會上，Agentic AI和Physical AI將是全程的核心。

接下來，老黃重提了Scaling Law。

這涉及了三大問題：如何解決數據？如何訓練模型？如何擴展？

預訓練要解決數據問題，后訓練解決的是human-in-the-loop問題，而測試時Scaling，則提升了AI的推理。

老黃表示，去年整個世界都搞錯了，Scaling并沒有撞墻！

從GPT開始，到如今的推理AI，它不再是僅僅預測下一個token，而是生成100多倍的token。

這樣，推理計算量就更高了，計算速度必須提高10倍，如今需要的計算量比去年這個時候我們認為需要的多出100倍。

那么，數據應該從哪里來？答案就是強化學習。

通過強化學習，我們可以生成大量token，這就涉及到了合成數據，給整個行業帶來巨大的計算挑戰。

比較一下Hopper的峰值年份和Blackwell的第一年，會發現：AI正處于轉折點。

Blackwell發貨才一年，我們就見證了全球AI基礎設施的驚人增長。僅在2024年，全球TOP 4的云服務商買進的Hopper架構芯片就達到130萬塊。

老黃表示，未來數據中心建設將達到一萬億美元的規模，并且他確信，這個時間很快了！

根據預測，到2028年就能達到這個規模。

如今，通用計算已經走到了盡頭，我們已經到達加速計算臨界點，需要一種新的計算方法。

世界正在經歷一個平臺轉移，從在通用計算機上運行的手寫軟件，轉向在加速器和GPU上運行的機器學習軟件。

過去，我們編寫軟件并在計算機上運行。未來，計算機將為軟件生成token。

計算機已經成為生成token的工具，而不僅僅是文件的檢索工具，老黃稱之為「AI工廠」。

上面這張幻燈片，可以說是GTC最核心內容的結晶。

英偉達通過由Grace Hopper和Grace Blackwell架構支持的各種CUDA-X庫，為每一個科學領域提供了加速框架。

比如，解決涉及稀疏矩陣的大型工程仿真問題的cuDSS，模擬極其復雜的量子系統的cuQuantum等等。

而這些，僅僅是使加速計算成為可能的庫的樣本。

如今，通過英偉達的900多個CUDA-X庫和AI模型，所有人都可以加速科學研究，重塑行業，賦予機器視覺、學習和推理能力。

老黃表示，從業三十年中，最令自己感動的一件事，就是一位科學家對自己說：「Jensen，因為你的工作，我可以在有生之年完成我的畢生事業」。

如今，每年有1000億美元的資本投入無線網絡和用于通信的數據中。

加速計算的趨勢已經無法阻擋，AI將進入每個行業，比如改變無線電信號。

既要大量token思考，又要快速生成

如今，英偉達已經完成了計算機架構的基本轉型。

大約三年前，他們就展示過Grace Hopper（Ranger系統），但它太大了，需要解決規模擴展的問題。

當時的想法是，使用大量商用計算機，將它們連接成一個大型網絡，然而，這種方式會消耗太多電力和能力，根本無法實現深度學習。

而HGX系統架構，徹底解決了縱向擴展的問題。

它包含8個GPU，通過MVLink 8連接到CPU架上，然后再通過PCI Express進行連接，很多這樣的設備再用InfiniBand連接起來。

這，就英偉達在向外擴展之前所能達到的最大規模了。

然后，他們又做出了世界上性能最高的交換機——NVLink交換機，使得每個GPU能夠同時以全帶寬與其他所有GPU通信。

同時，利用液冷將計算節點也壓縮到1u的托盤中，從而為行業帶來了巨變。

從此，集成NVLink轉向分散式NVLink，從空氣冷卻轉變為液冷，從每臺計算機約6萬個組件到每個機架60萬組件，120千瓦功率，全液冷設置。

于是，一個機架里，就有了一個Exaflops級別的超算。

英偉達的目標，就是構建這塊芯片，此前沒有任何一種工藝能實現。

它包含130萬億個晶體管，其中20萬億用于計算，而解決方法，就是將其拆分到Grace Blackwell NVLink 72機架中。

最終的結果，就是英偉達實現了Scaling，可以說，這是全世界實現過最極端的Scaling。

這個過程中的計算量，可能已經達到了內存帶寬每秒570TB。而這臺機器，已經達到了每秒百萬萬億次浮點運算。

實際上，推理Scaling是一個「終極計算」問題。

推理是工廠生成token的過程，只有具備極高性能，才會提升服務質量，以及收入和盈利的能力。

生成的token越多，AI就越智能。但問題是，吞吐時間太長且速率慢，客戶也不愿意買賬。

因此，在計算工廠中，響應時間和吞吐量中間，存在著基本的矛盾關系。

老黃展示這張圖中，x軸代表了生成的token，y軸代表著每秒token吞吐效率，理想情況下，圖中黃色曲線應該是一個方形，即在工廠能力極限之內，非常快速生成token。

然而，現實沒有哪個工廠可以做到這點。

曲線才是最符合現實的一種，工廠的目標是最大化曲線下方的面積，越是向外推，代表著建造的工廠越優秀。

另一個維度，則需要巨大的帶寬、最大的浮點運算能力。

現場，老黃展示了一個傳統大模型和推理模型，基于同一段提示通過思考token解決問題的關鍵區別。

一邊是Llama 3.3 70B，另一邊是DeepSeek R1。

這段提示詞的大意是要求在遵循傳統、拍照角度和家族爭端等約束條件下，在婚禮宴會上安排賓客入座。

I need to seat 7 people around a table at my wedding reception, but my parents andin-laws should not sit next to each other. Also, my wife insists we look better in pictures when she's on my left, but l need to sit next to my best man. How do l seat us on a roundtable? But then, what happens if we invite our pastor to sit with us?

結果，傳統LLM只需不到500個token就能快速回答，但結果是錯誤的。

而推理模型則需要超過8000個token來推理這個比較簡單的問題。

推理模型需要消耗超過20倍的token量完成問題，計算量也隨之增加了150倍。

而下一代模型，參數可能會達到萬億級別。

解決方案，就是將這些萬億級的參數分布在多個GPU上，通過管線并行、張量并行和專家并行的組合來解決。

8000多個token，就意味著數萬億字節的信息被輸入到GPU中，逐個生成token。

這，就是我們需要NVlink到根本原因——它讓我們能把這些GPU組成一個巨大的GPU，實現規模的終極Scaling。

終極摩爾定律：買越多，賺越多

接下來，黃仁勛發布了NVIDIA Dynamo，這是一款開源推理軟件，旨在以最低成本和最高效率加速和擴展AI工廠中的推理模型。

他將其稱之為「AI工廠的操作系統」。

「正如發電機（Dynamo）推動了工業革命，NVIDIA Dynamo將會革新AI工廠」。

隨著AI推理變得越來越主流，AI模型在每次提示下都會生成成千上萬的token來進行「思考」。

如何在提高推理性能的同時，還能不斷降低推理成本？

這便是NVIDIA Dynamo推出的意義。

NVIDIA Dynamo是NVIDIA Triton Inference Server的下一代產品，它能協調并加速數千個GPU之間的推理通信，并使用分布式服務把LLM的處理和生成階段分配到不同的GPU上。

這樣每個階段都能根據自己的需求單獨優化，確保GPU資源被充分利用。

在同樣的GPU數量下，Dynamo能讓運行Llama模型的AI工廠在Hopper架構上性能和收入雙雙翻倍。

在GB200 NVL72集群上運行DeepSeek-R1模型時，NVIDIA Dynamo的智能推理優化還能讓每個GPU生成的token數量提升超過30倍！

為了實現這些推理性能的提升，NVIDIA Dynamo能根據請求量和類型的變化，動態添加、移除或重新分配GPU，還能在大型集群中精準找到特定GPU來減少響應計算和路由查詢。

它還能把推理數據卸載到更便宜的內存和存儲設備上，需要時再快速取回，盡量降低推理成本。

老黃在現場宣布NVIDIA Dynamo完全開源，支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM。

下圖中，橫軸代表為用戶每秒處理的token數量，縱軸是工廠每秒處理的token吞吐量。

比如，Hopper平臺用8個GPU連上InfiniBand，可以為每個用戶提供100 token/秒的處理速度。

老黃開始算了起來，「有了這個坐標，我們就可以用token/秒和能耗來衡量收益了。」

比如，250萬token/秒按每百萬token 10美元算，就能帶來每秒2500美元的收入；而如果降到10萬token/秒，那也就是250美元。

而一年有3000多萬秒，這直接關系到1兆瓦數據中心的年收入。

所以，目標是找到token處理速度和AI智能之間的平衡點：速度快能做聰明AI，客戶愿意多付錢，但越聰明，批量生產就越難。

相比之下，新的Blackwell架構比Hopper強多了，尤其在能耗固定的情況下，性能提升了25倍，甚至在推理模型上直接比Hopper高40倍。

更厲害的是，Blackwell用MVLink 8技術加速，還引入了4位浮點數優化，減少能耗提升效率。

老黃表示，未來數據中心都會受限于電力，收入也跟電力掛鉤，所以能效高的架構最重要。

接下來，Blackwell將擴展到MVLink 72，再加上Dynamo軟件，效果將更上一層樓。

老黃表示下圖里的彩虹線非常驚艷，展示了各種配置下的最佳表現。

從頂部3000批大小到底部的2批大小，配置靈活應變。

這些優化讓數據中心能適應不同工作負載，證明了架構的重要性。

說到這，老黃舉了個例子，在推理模型上，Blackwell的性能直接比Hopper高了40倍，真的很了不起！

「一旦Blackwell開始大規模出貨，Hopper可能連送人都沒人要了。」老黃在現場打趣道。

黃仁勛說，銷售團隊聽到他這話估計要急了，擔心影響會Hopper的銷量。

但老黃認為，技術進步太快，工作負載又重，像AI工廠這樣的大型項目，最好投資在最新版本的技術上，比如Blackwell，這樣才能跟上潮流，避免落后。

接著，他拿出一個具體的例子來對比：一個100兆瓦的AI工廠用Hopper技術需要45000個芯片、1400個機架，每秒能產出3億個token。

而同樣的工廠如果用Blackwell，雖然芯片數量減少，但效率更高，整體性能更強。

老黃再次調侃道，銷售團隊可能覺得這是在「少賣貨」，但實際上還是之前那個觀點，「 the more you buy, the more you save」（買得越多，省得越多）。

甚至，現在還要更進一步：「the more you buy, the more you make」（買得越多，賺得越多）。

首個通用機器人模型開源，規模僅2B

正如老黃所言，Physical AI也是今年行業的重點。

他表示，「預計本世紀末，世界勞動力短缺人數將超過5000萬，而通用機器人的時代已經到來」。

具身智能也遵循著三大Scaling Law。

數據短缺成為Scaling一大難題，英偉達Omniverse和Cosmos能夠同時為具身智能的訓練，生成大量多樣化、高質量的數據。

然后開發者利用Isaac Lab通過增強數據集后訓練機器人策略，并通過模仿學習讓機器人通過克隆行為來學習新技能，或者通過試錯和強化學習AI反饋進行學習。

這一次，英偉達正式官宣了世界首個開源、完全可定制的通用人形機器人模型——GROOT N1。

這款模型的設計從人類認知過程汲取靈感，采用了「雙系統架構」，分別可以進行快思考和慢思考。

技術報告：https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T%20N1%20Whitepaper.pdf

在視覺語言模型驅動下，慢思考系統（System 2）能夠對環境和指令進行推理，然后規劃出正確的行動。

快思考系統（System 1），可以將上述計劃轉化為機器人精確、連續的動作，包括操縱物體、執行多步驟序列的能力。

值得一提的是，System 1是基于人類演示數據和Omniverse生成大量的合成數據進行訓練的。

GROOT N1可以輕松在上見任務中進行泛化，或執行需要長上下文和多種通用技能組合的多步驟任務。

比如，抓取、用一只手臂/兩只手臂移動物體，以及在兩個手臂之間傳遞物品。

此外，英偉達還與DeepMind、迪士尼研究一起開發下一代開源的Newton物理引擎，能夠讓機器人學習如何更精確處理復雜任務。

隨后，以星球大戰BDX機器人為靈感，裝上Newton引擎的Blue上臺和老黃來了一波有趣的互動。

最后，老黃預言：在未來，機器人領域將成為最大的產業。

毫無疑問，英偉達又一次成為了贏家。

責任編輯：張燕妮來源：新智元

英偉達模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看