世界超算最新排名出爐!「富岳」三連冠 中國仍是世界第一超算大國
在德國法蘭克福舉行的國際超級計算大會上,2021第57版世界TOP500超級計算機排名正式公布,這一版Top10排名相比上一版只有很小的變化,唯一的一個新入圍的超級計算機是來自美國新能源部勞倫斯伯克利國家實驗室的Perlmutter系統。
全球超級計算機500強是指國際TOP500組織發布的,全球已安裝的超級計算機系統排名,始于1993年,由美國與德國超算專家聯合編制,以超級計算機基準程序Linpack測試值為序進行 排名 ,每年發布兩次,其目的是促進國際超級計算機領域的交流和合作,促進超級計算機的推廣應用。

這臺超算基于 HPE Cray“Shasta”平臺和由 GPU 加速和 CPU 節點的異構系統。Perlmutter 實現了 64.6 Pflop/s的算力,使這臺超級計算機在新列表中排名第 5。
來自日本的“富岳”超級計算機仍然高居榜首,并且遙遙領先。
富岳由日本理化研究所和富士通聯合研發,在HPL標準下算力為442Pflop/s,這樣的性能表現超過了排名第二的美國頂點超級計算機的3倍。

這套系統基于富士通定制的ARM A64FX處理器,另外,在人工智能領域經常使用的降精度計算中,這臺計算機的峰值性能超過了每秒鐘1exaflop,也就是每秒百萬億億次浮點運算。
富岳是世界上第一臺算力達到exaflop級別的超級計算機。
盡管前十名榜單變化不大,但是從整體排名來看,還是能發現一些重要的趨勢。
首先就是采用AMD處理器的超級計算機顯著增加,比如剛入選TOP10榜單的Perlmutter就是在用的AMD EPYC 7763處理器,排在第6的Selene也采用了AMD EPYC 7742.

另外一個現象是在TOP500榜單中,盡管其中中國超級計算機的絕對數量還是遙遙領先,但是由上一次的212變為現在186臺,相應的,美國則由上一次的113臺增至如今的123臺。尚不清楚是否是由于芯片供應問題導致的負面效應。

在綜合性能指標上,來自美國的超級計算機仍然處于領先,目前總算力達到了856.8Pflop/s,而中國則為445.3Pflop/s。

從制造商維度來看,中國聯想目前是世界最大的超級計算機制造商,在TOP500中占據了35.8%的份額,而浪潮則緊隨其后。

而在性能表現上,富士通由于打造了富岳這臺怪物,所以在總算力上超過了聯想排在第一。

全球TOP10超級計算機排名
排名 |
系統 |
核心數 |
測試性能 TFlop/s |
峰值性能 TFlop/s |
1 日本 |
富岳 |
7,630,848 |
442,010.0 |
537,212.0 |
2 美國 |
頂點 |
2,414,592 |
148,600.0 |
200,794.9 |
3 美國 |
山脊 |
1,572,480 |
94,640.0 |
125,712.0 |
4 中國 |
神威·太湖之光 |
10,649,600 |
93,014.6 |
125,435.9 |
5 美國 |
Perlmutter |
706,304 |
64,590.0 |
89,794.5 |
6 美國 |
月之女神Selene |
555,520 |
63,460.0 |
79,215.0 |
7 中國 |
天河二號 |
4,981,760 |
61,444.5 |
100,678.7 |
8 德國 |
JUWELS Booster Module |
449,280 |
44,120.0 |
70,980.0 |
9 意大利 |
HPC5 |
669,760 |
35,450.0 |
51,720.8 |
10 美國 |
Frontera |
448,448 |
23,516.4 |
38,745.9 |
富岳
「富岳」超算系統擁有158,976個節點,4.85 PB總內存,163 PB/s 內存帶寬,15.9 PB NVMe L1存儲。
算力 |
CPU默頻:2GHz |
CPU超頻:2.2GHz |
64位雙精度FP |
488 PFLOP/s |
537 PFLOP/s |
32位單精度FP |
977 PFLOP/s |
1.07 EFLOP/s |
16位半精度 FP (AI 訓練) |
1.95 EFLOP/s |
2.15 EFLOP/s |
8位整數(AI 推理) |
3.90 Exaops |
4.30 Exaops |
與那些使用X86+顯卡的超算不同,「富岳」使用的是基于ARM架構的A64FX處理器。

A64FX擁有48個計算內核,以及提供給操作系統使用的2或4個輔助內核。
其采用全新的內核設計,ARM V8架構、64位生態系統、Tofu-D互聯網絡和PCIe Gen3 ×16。
同時還封裝有HBM2內存,理論峰值內存帶寬可達163 PB/s。

Tofu-D是什么?
Tofu是指「torus fusion」——「環形融合」,代表設計的尺寸組合與獨立配置和路由算法。D是指高「密度」節點和「動態」數據包切片的「雙軌 」傳輸。
這個難道真的不是日語的「豆腐」的諧音梗么。
雖然處理器沒有 GPU 加速器,但它具有SVE 512 位× 2向量擴展,可以在整數1、2、4 和8字節以及浮點16、32 和 64 位級別上運行。
中國的超算
高性能計算主用在理論、實驗難以解決的科學問題;大型、復雜、甚至不可重復和危險的工程設計和實驗等。
早在2015年美國就開始對中國施行超算芯片禁售,從產業鏈條和技術層面進行遏制。
不過,我國目前正在進行超算生態系統的國產化。
「天河一號」和「天河二號」已經開始試用自主研制的飛騰CPU,而「神威·太湖之光」更是搭載了40960個我國自主研發的「申威26010」眾核處理器。
然而,目前更多的超算仍使用英特爾芯片。
好消息是,神威E級原型機的處理器、網絡芯片組、存儲和管理系統等核心器件全部實現國產化。
「天河三號」E級原型機則采用自主的飛騰處理器、天河高速互聯通信和麒麟操作系統,實現了芯片的全國產化,告別了前代的英特爾芯片。
神威•太湖之光
2016-2017年排名第一
研制廠商:國家并行計算機工程技術研究中心
部署單位:國家超級計算無錫中心
測試性能:93.015 PFLOPS
系統峰值:125.436 PFLOPS
主要參數:
40960 個計算節點
40960 顆 申威 26010 260C 1.45GHz CPU
1.31PB 內存
230TB 儲存
天河二號
2013-2015年排名世界第一
研制廠商:國防科技大學
部署單位:廣州超級計算中心
測試性能:61.45 PFLOPS
系統峰值:100.68 PFLOPS
主要參數:
17792 個計算節點
35584 顆 Intel Xeon E5 - 2692 2.2GHz 12 核心 CPU
35584 顆 MATrix2000(1.2GHZ,2.46TFlops/ 顆)
5696 顆 Xeon Phi 31S1P 加速協處理器
3PB 內存