谷歌TPU訓練BERT只要23秒,華為AI芯片超英偉達V100
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
今天,人工智能行業權威“跑分”MLPerf訓練v0.7出爐,這是該跑分推出以來第三次放榜。

英偉達剛發布的A100 GPU、谷歌即將推出的TPUv4,兩個冤家的AI芯片性能孰強孰弱,在這份榜單里都能看到。
除了兩家AI巨頭相爭,此次也是中國芯片首次在榜單中亮相,來自華為的昇騰910芯片實測成績曝光,性能一度超越了英偉達同類產品。
MLPerf測試內容
隨著AI技術的進步,今年的測試基準進一步加大了難度。
MLPerf訓練測試基準包括圖像分類、翻譯、推薦系統和圍棋等8個機器學習任務中,最終結果是這8項任務的訓練時間,速度越快則性能越強。
具體的8項任務內容如下:

其中后三項是新加入或重新制定的標準:
1、BERT:用Wikipedia語料庫訓練BERT,這是首次將BERT引入MLPerf測試基準。
2、DLRM:用Criteo AI Lab的Terabyte點擊率數據集訓練的深度學習推薦模型(DLRM),廣泛用于在線購物推薦、搜索結果和社交媒體內容排序。
3、Mini-Go:之前的MLPerf v0.5和v0.6也有訓練圍棋的強化學習任務,但卻是迷你棋盤,此次v0.7將棋盤擴大為19x19全尺寸,這更能反映研究成果。
了解過測試內容后,我們來看看各家的跑分成績。
BERT訓練刷新紀錄
今年英偉達和谷歌兩家公司都拿出了自己最強的硬件參與競爭。
英偉達方面,他們打破了16項AI訓練測試紀錄,而谷歌則表示,自己在全部8項任務中有6項獲得了最高成績。

得益于兩家的激烈競爭,AI訓練速度有了飛速發展。有一些在5年前還需要訓練3周的任務,現在只需不到1分鐘即可完成,幾乎是一年提高一個數量級。
令人印象最深刻的還是BERT,這個NLP模型在剛推出時需要訓練3天時間。
去年,谷歌用1024塊TPUv3將訓練時間縮短到76分鐘,英偉達又用1472個V100 GPU將訓練時間進一步減少到53分鐘。
在最新的MLPerf中,英偉達只花了49秒就完成了BERT的訓練,他們用了一臺包含2048個A100 GPU的超級計算機SuperPOD。

作為對比,英偉達還表示,谷歌用16個TPUv3訓練了56.7分鐘才完成。(看看,我們才用了不到1分鐘!)
然而,實際上谷歌比他們的速度更快,谷歌的一個研究項目使用了4096塊TPU芯片,在訓練BERT上獲得了絕對最高的成績——23秒!
需要注意的是,這次訓練BERT的數據集和去年并不相同,但是把BERT訓練時間縮短到半分鐘內已經足夠驚人。
谷歌聲稱,快速訓練BERT用的是世界上最快的機器學習訓練超算,其內部有4096個TPU v3芯片和數百個CPU主機,所有芯片都通過超快速、超大規模的定制互連進行連接,可提供430PFLOP的峰值性能。

這臺超算在4項任務中都把訓練時間縮到半分鐘內。

華為芯片首次亮相
另外,在訓練芯片榜單上,我們首次看到了國產芯片的身影。
中科院深圳先進技術研究所提供了華為昇騰910的測試成績,雖然僅測試了ResNet-50一項,但是相同規模的情況下,其速度已經超過了英偉達的V100 GPU。

同樣使用128個至強白金CPU和512個AI加速芯片,昇騰910在ImageNet任務中,訓練ResNet-50只需1.59分鐘,而英偉達V100需要2.35分鐘。
華為昇騰910不僅可以運行自研的MindSpore框架,也能運行谷歌的TensorFlow框架。兩者性能差距很小,后者的訓練時間為1.53分鐘,比在MindSpore框架上運行時間稍短。

不過,從這份榜單中可以看出,國產AI芯片任重道遠,英偉達仍在商業領域占據主導地位。
參與測試的多家公司使用的均是英偉達GPU,不久前推出的A100 GPU也迅速得到商用。戴爾、阿里、富士通、騰訊、浪潮,甚至連谷歌自己,都是英偉達的客戶。
而且臺積電將停止為華為代工芯片,使華為自研AI芯片的未來蒙上了一層陰影。
谷歌TPUv4泄露
此次MLPerf跑分還泄露了谷歌新一代TPU的性能指標。
相比兩年前的TPUv3,谷歌的TPUv4帶來平均2.7倍的性能提升。

更可怕的是,谷歌23秒訓練完BERT使用的是TPUv3,而使用256塊TPUv4訓練BERT的時間是1.82分鐘。
至于更大規模的TPUv4計算集群會帶來怎樣恐怖的成績,或許只能等谷歌正式發布后才能知曉。
關于MLPerf
MLPerf是業內首套衡量機器學習軟硬件性能的通用基準,由圖靈獎得主David Patterson聯合谷歌和幾所著名高校于2018年發起。
MLPerf基準聯盟現有83家成員,包括谷歌、英偉達、微軟、Facebook、阿里巴巴等73家企業和斯坦福、哈佛、多倫多大學等10所高校。

2018年,MLPerf發布了首個AI訓練測試基準v0.5,v0.7是第三個AI訓練跑分榜單。去年,該組織還發布過AI推理測試基準v0.5,國產芯片阿里含光800曾獲得多項第一。
榜單地址:
https://mlperf.org/training-results-0-7