成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AMD的GPU跑AI模型終于Yes了?PK英偉達H100不帶怕的

人工智能 新聞
近日,專注計算硬件的科技媒體 The Information 發布了一份對比評測報告,聲稱是首個直接對比 AMD 和英偉達 AI 集群的基準評測。該報告的數據來自 MLCommons,這是一個由供應商主導的評測機構。

AMD vs 英偉達絕對算是一個長盛不衰的話題 —— 從玩游戲用哪家強到如今訓練 AI 哪個更高效?原因也很簡單:它們的 GPU 產品存在直接競爭關系。

當然,答案通常都偏向于英偉達,尤其是在 AI 算力方面,正如前些天李沐在上海交大演講時談到的那樣:「算力這塊,你可以用別的芯片,但是這些芯片用來做推理還 OK,做訓練的話還要等幾年的樣子,英偉達還是處在一個壟斷的地位。」

但基于實證的對比研究卻往往又會給出不一樣的答案,比如在同一個演講中,李沐還提到了這兩家 GPU 的內存情況,對此他表示:「在這一塊,雖然英偉達是領先者,但其實英偉達是不如 AMD 的,甚至不如 Google 的 TPU。」

實際上,不少業內人士都表達過對 AMD 占據更大市場份額的信心,比如 Transformer 作者及生成式 AI 初創公司 Cohere 創始人之一艾丹?戈麥斯(Aidan Gomez)前些天說:「我認為 AMD 和 Tranium 這些平臺很快也將做好真正進入主流市場的準備。」

近日,專注計算硬件的科技媒體 The Information 發布了一份對比評測報告,聲稱是首個直接對比 AMD 和英偉達 AI 集群的基準評測。該報告的數據來自 MLCommons,這是一個由供應商主導的評測機構。

他們構建了一套 MLPerf AI 訓練和推理基準。AMD Instinct 「Antares」 MI300X GPU 以及英偉達的「Hopper」H100 和 H200 和「Blackwell」B200 GPU 都得到了評估。The Information 對比了這些評估數據。

結果表明:在 AI 推理基準上,MI300X GPU 絕對能比肩 H100 GPU,而根據 The Information 對 GPU 成本及系統總成本的估計,說 MI300X GPU 能媲美 H100 和 H200 GPU 也不為過。但是,也需要說明這些測試存在局限:僅使用了一種模型,即來自 Meta 的 Llama 2 70B。希望未來能看到這些測試中使用更多不同的 AI 模型。

對 MI300X 及 AMD 未來的 GPU 來說,這個結果很是不錯。

但到今年年底時,考慮到英偉達 Blackwell B100 和 B200 GPU 的預期價格,似乎英偉達將與 AMD MI300X 加速器開始比拼性價比。另外,也許 AMD 會在今年晚些時候推出 MI325X GPU。

重點關注推理

AMD 的數據直到上周才發布。業內有傳言說 AMD 簽了一些大訂單,會把 MI300X 出售給超大規模計算公司和云構建商,以支撐他們的推理工作負載。無怪乎 AMD 直到上周才發布 MLPerf Inference v4.1 測試結果。

對 MLPerf 推理結果的分析表明,在使用 Llama 2 70B 模型執行推理任務時,MI300X 在性能和成本上確實能與 H100 比肩。但和 H200 相比就差點了,畢竟 H200 有更大的 HBM 內存(141GB)和更高的帶寬。如果 Blackwell 的定價符合預期,那么今年晚些時候推出的 MI325 為了具備競爭力,就必須得擁有更大的內存、更高的帶寬和更激進的價格才行。

下面是最新發布的 MLPerf 基準評測結果:

圖片

英偉達的 MLPerf 基準評測結果來自英偉達自身,其中也包括使用 Llama 2 70B 模型在單臺 Blackwell B200 SXM 上的結果,詳情可訪問這篇博客:https://blogs.nvidia.com/blog/mlperf-inference-benchmark-blackwell/

The information 提取了所有英偉達的結果,并新增了 Juniper Networks 在包含 2 個和 4 個節點的 HGX H100 集群上得到的結果(總共 8 和 16 臺 H100)。

AMD 在配備一對當前的「Genoa」Epyc 9004 系列處理器和八臺 Antares MI300X GPU 的服務器節點中測試了標準通用基板(UBB),還測試了一臺將 Genoa CPU 換成即將推出的「Turin」Epyc 9005 系列 CPU 的機器,該系列 CPU 預計將在下個月左右推出。

圖片

AMD 還向 The Next Platform 提供了一張圖表,其中展示了在 Genoa 盒子上測試一臺 MI300X GPU 的性能,這可以顯示節點內 GPU 的擴展性能:

圖片

讓我們先看性能,然后再看性價比。

對于性能,我們想知道,在執行 Llama 2 推理時,AMD 和英偉達設備所具備的潛在峰值浮點性能有多少會被實際用于生成 token。但并沒有這方面的具體數據,因為 GPU 利用率和內存利用率不在基準測試中。不過我們可以根據已有數據進行推斷。

AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 軟件庫和 runtimes,它類似于英偉達的 CUDA 堆棧。在 MI300X 的張量核心上的峰值 FP16 性能為 1307.4 TFlops,但這是在服務器模式下運行的(也就是使用在現實世界中看到的一種隨機查詢),可知在運行 Llama 2 70B 模型時,單臺 MI300X 每秒生成 2530.7 個 token。因此,Llama 2 性能與假設峰值 Flops 之比為 1.94。當擴展到 8 臺 MI300X 設備并換用更高速的 CPU,則這一比值會略微升至 2.01 到 2.11。

我們知道,H100 GPU 的 HBM 內存僅有 80GB,啟動帶寬也較低,這是因為缺少 HBM3 和 HBM3E 內存導致的內存配置不足。MI300X 也是類似。大家都在拉低 GPU 的內存配置,這樣不僅是為了多賣些設備,而且也因為在 GPU 芯片附近堆疊 HBM 的難度很大,并且還有封裝制造工藝的問題。

再看看英偉達測試的 H100 系統,每秒服務器 token 與峰值 FP16 Flops 的比值是 2.6 或 2.73,這比 AMD 的更好,這可能要歸結于軟件調整。針對 H100,CUDA 堆棧和 TensorRT 推理引擎進行了大量調整,現在你明白為什么 AMD 如此渴望收購人工智能咨詢公司 Silo AI 了吧?這筆交易幾周前剛剛完成。

由于切換到了 HBM3E,H200 的 HBM 內存將大幅提升至 141 GB,帶寬也將從 3.35 TB/s 提升至 4.8 TB/s。于是這個比值將增至 4.25,而英偉達自己的基準測試表明,只需在完全相同的 Hopper GH100 GPU 上添加內存容量和帶寬,AI 工作負載就能提升 1.6 至 1.9 倍。

MI300X 應該具有什么樣的內存容量和帶寬才能平衡其在推理(可能還有訓練)工作負載方面的浮點性能呢?這一點很難估計。但 The Information 給出了一個直覺估計:MI325X 將具有 6 TB/s 的帶寬(MI300 為 5.3 TB/s)和 288 GB 的 HBM3E( HBM3 為 192 GB)—— 這是朝著正確方向邁出的一大步。另外,MI325X 的 FP16 浮點性能似乎還是 1.31 Pflops。

不過明年的 MI350 的浮點性能可能會大幅提升,據信其會有新迭代的 CDNA 架構:CDNA 4。其不同于 Antares MI300A、MI300X 和 MI325X 中使用的 CDNA 3 架構。MI350 將轉向臺積電的 3 納米工藝,并增加 FP6 和 FP4 數據類型。據推測,將有一個全 GPU 的 MI350X 版本,也許還有一個帶有 Turin CPU 核心的 MI350A 版本。

你可能傾向于相信 AMD MI300X 和英偉達 H100 之間的性能差異是因為:一致性互連將 GPU 綁定到其各自 UBB 和 HGX 板上的共享內存復合體中。AMD 機器上的是 Infinity Fabric,而英偉達機器上的是 NVSwitch。Infinity Fabric 的每臺 GPU 的雙向帶寬為 128 GB/s,而 NVLink 4 端口和 NVSwitch 3 交換機的帶寬為 900 GB/s,因此英偉達機器在內存一致性節點結構上的帶寬高 7 倍。

這可能是 Llama 2 工作負載性能差異的一部分原因,但 The Information 認為不是。原因如下。

單臺 MI300X 的峰值性能為 1.31 Pflops,比 H100 或 H200 的 989.5 Tflops(FP16 精度)高出 32.1%,且沒有稀疏矩陣重新調整,吞吐量翻倍。MI300X 的內存是 H100 的 2.4 倍,但 Llama 2 推理工作性能僅比 H100 多 7%,并且推理負載僅為 H200 的 60%。根據英偉達進行的測試,相比于配備 180 GB 內存的 Blackwell B200,該設備的工作性能僅為其 23.5%。

據信 B200 的內存也會受限,因此根據 6 月份發布的英偉達路線圖,B200 和 B100(可能)將在 2025 年進行內存升級,容量可能會提升到 272 GB 左右。H200 的內存升級會領先于 MI300X,后者的升級將在今年晚些時候體現在 MI32X 上,并會在內存方面領先 B200 Blackwell Ultra 六到九個月。

圖片

The Information 表示:「如果我們要買 GPU,我們會等 Hopper Ultra (H200)、Blackwell Ultra (B200+) 和 Antares Ultra (MI325X)。擁有更多 HBM 的數據中心 GPU 更劃算。」

當然,你也可以等,用你現有的 GPU 參加這場生成式 AI 大戰。

當然,上面的數據圍繞著推理,至于 AI 訓練方面的數據,AMD 可能會在今年秋季發布。

實際應用的性價比

MI300X 與英偉達的 Hopper 和 Blackwell 的性價比如何呢?

今年早些時候,英偉達聯合創始人兼 CEO 黃仁勛在 Blackwell 發布后表示:這些設備的價格將在 3.5 至 4 萬美元之間。Hopper GPU 的價格可能為 2.25 萬美元,具體取決于配置。黃仁勛在 2023 年時曾表示,一套配置完成的 HGX H100 系統板的價格售價 20 萬美元。至于 H200,如果單獨購買,價格應該是 3 萬美元。MI300X 的售價大概是 2 萬美元,但這基本基于猜測。具體還要看消費者和市場情況。

當然,大量購買應該還有折扣,正如黃仁勛喜歡說的那樣:「買得越多,省得越多。」(The More You Buy, The More You Save)

粗略估計,將這些 GPU 變成服務器(兩臺 CPU、大量主內存、網卡和一些閃存)的成本約為 15 萬美元,并且可以插入英偉達的 HGX 板或 AMD 的 UBB 板來構建八路機器。考慮到之前計算的單臺 GPU 的性能,于是這里便以這一成本的八分之一進行計算。

綜合這些成本,可以看到 MI300X 與 H100 一樣非常燒錢。

我們已經知道,對于 Llama 2 70B 推理任務,H100 系統中平均每臺 GPU 每秒可輸出 2700 個 token,這比 MI300X 好 7%。H200 的內存是 141 GB,是原來的兩倍多,而其推理性能提升了 56%,但 GPU 的價格僅上漲了 33%,因此其 GPU 和系統層面的性價比都得到了提升。

如果 B200 的價格如黃仁勛所說的那樣為 4 萬美元,那么在 Llama 2 70B 測試中,其在 GPU 層面上每單位推理的成本將降低近一半,在系統層面上則會略多于一半。

考慮到 Blackwell 的短缺以及希望在給定空間和給定熱范圍內容納更多 AI 計算的需求,因此也可以推斷英偉達可能為每臺 B200 GPU 定價 5 萬美元 —— 很多人都這樣預計。

當然,具體如何,還要看今年晚些時候 AMD MI325 的定價以及產能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-14 12:08:51

2023-11-21 09:14:33

微軟Azure AI

2025-04-22 09:47:07

2023-08-10 13:54:36

GPUAI

2023-08-06 13:01:34

AI開發

2024-04-10 09:10:27

Gaudi 3芯片英特爾

2024-03-14 14:49:34

Meta人工智能

2023-11-14 08:59:25

英偉達AI

2023-08-14 08:07:46

ChatGPTAI

2023-08-13 07:44:18

GPU模型英偉達

2024-02-29 13:54:00

數據訓練

2023-10-18 13:17:12

AI芯片英偉達美國

2023-08-24 14:26:00

數據中心利潤AI

2023-07-31 21:34:53

Agents英偉達模型

2024-08-28 13:34:13

2023-09-14 13:23:00

AI芯片

2024-04-10 12:58:00

數據訓練

2024-08-05 08:20:00

馬斯克AI

2023-09-10 12:40:01

英偉達GPU

2023-09-10 12:37:38

模型英偉達
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲福利在线观看 | 黄色国产在线播放 | 日本小电影网站 | 久色视频在线 | 国产高清无av久久 | 亚洲高清在线 | 超碰日本 | av一区二区三区 | 在线观看国产www | 国内精品视频免费观看 | 中文字幕第100页 | 色性av | 美女国产一区 | va精品| 久久久久久成人 | 亚洲精品一区二区在线观看 | 久久人人网| 精品欧美一区二区在线观看欧美熟 | 免费在线观看一级毛片 | 欧美日韩亚洲国产 | 日韩精品一区二区三区第95 | 秋霞电影一区二区 | 99久久99| 精品欧美久久 | 亚洲一区二区三区在线 | www.国产91| 伊人伊成久久人综合网站 | 日韩精品免费播放 | www.日本国产 | 日韩在线免费视频 | 国产在线精品一区二区三区 | 超碰综合| 国产精品一二三区在线观看 | 欧美综合久久久 | 久久久久久国产精品免费免费 | 一区精品国产欧美在线 | 日韩一级| 亚洲国产精品一区二区久久 | 日日淫 | 欧美激情亚洲激情 | 一区二区三区视频在线 |