成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一起聊聊面向E級計算的四款高性能處理器

商務辦公
本文主要分析和探討國際上面向 E 級計算的先進高性能處理器的核心運算架構,包括 Fujitsu A64FX、NVIDIA H100、AMD MI250X 和 Intel PonteVecchio 4款高性能處理器,著重關注運算資源組織結構、數據和指令級并行方式、領域專用加速結構 DSA、支持數據類型和算力等方面。

商用高性能計算處理器市場主要被NVIDIA、AMD和Intel3家公司長期占據,在面向E級計算 的 高 性 能 處 理 器 中,AMD 最 新 的Instinct MI250X處理器雙精度浮點運算能力已經高達95.7TFlops,NVIDIA和Intel最新發布的高性能處理器峰值性能也均達到了數十 TFlops。

本文主要分析和探討國際上面向 E 級計算的先進高性能處理器的核心運算架構,包括 Fujitsu A64FX、NVIDIA H100、AMD MI250X 和 Intel PonteVecchio 4款高性能處理器,著重關注運算資源組織結構、數據和指令級并行方式、領域專用加速結構 DSA、支持數據類型和算力等方面,并總結和展望主流高性能處理器的運算架構研究發展現狀和趨勢,以期為國內自主研發面向后 E 級計算的高性能處理器提供技術參考和借鑒。

1、Fujitsu A64FX

Fujitsu A64FX 是由富士通(Fujitsu)在2018年發布的,主要用于構建日本原計劃研發的首臺 E級計算機 “后 京”(POST-K)[6],后 改 名 為 “富 岳”(Fugaku)并于2020年6月發布。目前,“富岳”超算在全球高性能計算機 TOP500榜單中排名第2,集成的 A64FX處理器芯片數量高達158976片,全機峰值性能為0.537212EFlops,Linpack實測性能為0.44201EFlops,效率為82.28%。

圖片

A64FX處理器結構框圖如圖1所示,分成4個處理核心存儲組 CMG(CPU MemoryGroup),每個 CMG 包含13個同構核心、L2Cache和存儲控制器,其中12個核心為計算核心,1個為輔助核心,用于運行操作系統和I/O 操作,全片共52個核心。每個 CMG 集成8GB 容量的 HBM2存儲器,全片總容量為32GB,總帶寬為 1024GB/s。

片上還集成了 PCIe3.016x接口和富士通特有的TofuD互連網絡接口與路由器,這些外接口與4個CMG 通過片上網絡 NoC(NetworkonChip)實現互連和通信。

A64FX 處理器采用臺積電7nm 工藝和 CoWoS封裝實現,集成了87.86億晶體管,最高運行頻率為2.2GHz,峰值性能為3.3792TFlops,功耗為200W。

2、NVIDIA H100

NVIDIA 在 HPC 和 人 工 智 能 AI商用處理器市場占比非常高,一直是圖形處理器 GPU領域的佼佼者。TOP500最新榜單排行前20的超算系統中有11臺采用了 NVIDIA 的 GPU 實現。目前這些超算算力主要由前兩代 GPU 產品 V100和A100提供。

圖片

NVIDIA 于2022年3月發布了面向 HPC 和AI的最新款高性能處理器 H100GPU。該處理器采用 新 一 代 HOPPER 架 構,基 于 上 一 代 GPUA100的 Ampere架構主要進行了如下擴展:

  • (1)集成第4代張量核心(TensorCore);
  • (2)新增動態規劃算法加速指令 DPX;
  • (3)流多處理器 SM內 CUDA核 數 量 翻 倍;
  • (4)與GPC相對應,強化線程塊簇特征;
  • (5)新增 TMA引 擎,增 強 異 步 數 據 傳 輸 功 能;
  • (6)定 制Transformer引 擎,以 加 速 Transformer 模 型 訓練;
  • (7)更新換代 HBM3、PCIe5.0和第4代 NVLink等存儲和外接口。

H100的結 構 框 圖如 圖 2 所 示,全 片 實 際(非 GH100架構滿配)集成了132個 SM,每2個SM 構成一個 TPC(TextureProcessingCluster),9個或8個 TPC構成一個 GPC,全片共8個 GPC。

每個SM 包含128個 FP32(單精度浮點)CUDA核和 4 個 TensorCore,全片共 16896 個 CUDA核,528個 TensorCore。

H100GPU 片上集成了50MB的L2Cache,5個16GB容量的 HBM3,存儲總容量為80GB,總訪存帶 寬 為 3 TB/s。此 外,片 上 還 集 成 了 PCIe 5.0 16x和第 4 代 NVLink 外接口,支 持 與 CPU或 GPU 高速互連。

H100GPU 采 用 臺 積 電 為 NVIDIA 定 制 的4N 工藝和 CoWOS封裝實現,全片集成了800億個晶體管,運行頻率為1.776GHz(根據雙精度浮點峰值性能和全片集成運算部件數量推算得到),峰值性能為 60.0TFlops,TDP功耗為700 W。

3、AMD MI250X

為進一步加強在 HPC領域的影響力,AMD將旗下通用 GPUGP拆分成 RDNA(RadeonDNA)和 CDNA(ComputeDNA)架構,前者主要面向實時游戲和圖形處理,后者主要面向 HPC應用。

CDNA 架構目前已經發展到第2代 MI200,代表高性能處理器是 MI250X發布于2021年11月,并用于構建美國E級超算“前線”(Frontier)。“前 線”超 算 發 布 于 2022 年 5 月 30日,在全球高性能計算機 TOP500榜單中排名第1,集成的 MI250X 處理器芯片數量高達36992片,全機峰值性能為1.68565EFlops,Linpack實測性能為1.102EFlops,效率為65.38%。

圖片

MI250X處理器采用 AMD 特有的先進3D封裝技 術 集 成 2 個 MI200 GCD(GraphicsComputeDie),2個 GCD 間通過無盡互連IF(Infinit Fabric)接口直連實現高帶寬通信。MI250X 處理y器中單個 GCD(非 MI200滿配)結構框圖如圖3所示,包含4個計算引擎 CE(ComputeEngine),每個 CE內含27或28個計算單元 CU(ComputeUnit)。MI250X 處 理 器 全 片 2 個 GCD 共 220 個CU;集成了16 MB 的 L2Cache;8個16GB 容量的 HBM2E,總容量為128GB、總帶寬為3.2TB/s;8路IFLink或者6路IFLink加PCIe4.0接口(2路IF接口可重構配置成 PCIE4.0接口),支持GPU 和 CPU 多種可擴展高速互連。

MI250X處理器采用臺積電 N6工藝實現,全片集成了 582 億個晶體管,運行頻率最高為 1.7GHz,峰值性能為 95.7TFlops,是首個峰值性能接近 100 TFlops的 高 性 能 處 理 器,TDP 功 耗 為560 W。

4、Intel PonteVecchio

Intel一直致力于重新贏得 HPC 領域的高性能處理器領導者地位,其精心打造的面向 E 級計算的高性能處理器 PonteVecchio于2021年8月在Intel體系結構日上發布,2023年1季度已上市。PonteVecchio處理器將用于構建2臺美國 E級計 算 機 “極 光”(Aurora)和 “酋 長 巖”(ElCaptain),并為其提供主要算力,預計“極光”的超算峰值性能為1.0EFlops、“酋長巖”的超算峰值性能為2.0EFlops。

PonteVecchio處理器采用 X HPC架構實現,結構框圖如圖4所示。

圖片

PonteVecchio處理器通過多種先進封裝集成2個同構的 Stack,Stack 間通過高速直連接口互連;全片共8個 Slice,每個 Slice包含16個 X 核心,總計128個 X 核心;全片集成了144 MB的共享 L2Cache;8個 HBM2E,總帶寬超過5TB/s;16路 X Link,支持多 CPU 間高速直連,總帶寬超過2TB/s;此外還集成了 PCIe5.0接口。

PonteVecchio處理器采用 5 種先進工藝實現,包括臺積電5nm、7nm 和Intel 7nm 等,全片多 達 47 個 Tile (Die),通 過 Foveros和 EMIB等多種先進封裝技術集成。全片集成了超過1000億個晶體管,運行頻率為1.373GHz(根據單精度浮點峰值性能和全片集成運算部件數量推算得到),峰值性能超過45.0TFlops(雙精度浮點與單精度浮點相同),功耗暫無官方數據。

5、小結

4款面向 E級計算的高性能處理器參數與對比統計信息如表1所示,4款處理器均采用臺積電7nm 或更先進工藝,集成密度高、晶體管數目龐大,通過先進封裝集成高帶寬存儲器 HBM 提供TB/s級訪存帶寬,并采用商用大容量存儲顆粒。

圖片

工作頻 率 方 面,A64FX 的 較 高,達 到 了 2.2GHz,H100 和 MI250X 的 均 在 1.7 GHz 左 右,PonteVecchio的最低為1.373GHz;

峰值性能方面,A64FX 是唯一峰值性能低于10.0TFlops的處理器,其他3款的均超過45.0TFlops,MI250X的甚 至 高 達 95.7 TFlops;

功 耗 方 面,H100 和MI250X的均超過 500 W,PonteVecchio的無官方數據,預計也會超過500W。

先進封裝技術方面,均采用了2.5D 或3D 封裝,MI250X 還通過 EFB封裝集成了2個 GCD,而 PonteVecchio采用 Foveros+EMIB 封裝集成超過47個 Die,并通過多種先進工藝分別實現了計算 Die、存儲 Die和互連 Die。

作者:吳鐵彬、過鋒、王諦

責任編輯:武曉燕 來源: 架構師技術聯盟
相關推薦

2025-03-13 05:00:00

2024-02-26 00:00:00

Go性能工具

2016-07-07 11:00:54

聯想

2025-06-11 02:10:00

2024-07-11 08:26:00

2024-08-06 08:27:51

2021-11-04 06:58:31

CSS性能設備

2025-04-16 08:01:05

Ceph對象存儲

2022-10-08 00:00:05

SQL機制結構

2024-12-30 08:03:08

2024-02-02 09:21:57

API性能策略

2023-12-29 08:29:15

QPS系統應用

2023-08-10 08:28:46

網絡編程通信

2023-08-04 08:20:56

DockerfileDocker工具

2023-06-30 08:18:51

敏捷開發模式

2022-05-24 08:21:16

數據安全API

2023-09-10 21:42:31

2023-09-21 08:16:56

JDK 21向量計算計算

2023-04-26 07:30:00

promptUI非結構化

2023-06-09 08:06:14

操作系統調度器LLM
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一级片一区二区 | 91精品久久久久久久久久 | 日韩在线免费视频 | 91视频一区二区三区 | 亚洲综合在线一区 | 国产aa| 最新中文字幕 | 99精品国自产在线 | 欧美日韩综合一区 | 亚洲福利av | 久久亚洲欧美日韩精品专区 | 亚洲巨乳自拍在线视频 | 99久久99久久精品国产片果冰 | 99草免费视频 | 久久久久久蜜桃一区二区 | 热久色 | 亚洲精品免费看 | 黄色一级视频免费 | 成人黄色a | 日本一区二区三区四区 | 婷婷91| 亚洲天堂一区 | 国产乱性| 欧美5区 | www国产成人免费观看视频,深夜成人网 | 伊人免费在线观看 | 欧美日韩久久久 | 人人干人人看 | 日本精品一区二区三区在线观看 | 成人福利在线 | 亚洲一区 | 三级成人片 | 欧美色成人 | 国产精品亚洲欧美日韩一区在线 | 午夜精品久久久 | 一本岛道一二三不卡区 | 欧州一区二区三区 | 国产性网 | 美日韩中文字幕 | 日韩一二区在线观看 | 国产1区|