谷歌聲稱其第四代TPU優(yōu)于英偉達GPU,但業(yè)界認為后者領導地位難撼動
谷歌日前聲稱,公司在AI超級計算能力方面可以勝過英偉達。但業(yè)界認為,這一消息并不可能對英偉達這家市場領導者帶來太大困擾。
谷歌近日發(fā)布一份研究報告稱,采用其TPU驅動的AI超級計算機與運行Nvidia A100 GPU的同等機器比具有更好的性能和能效。
谷歌已將4000個第四代TPU串聯在一起,構建了一臺超級計算機,并稱這臺超級計算機的運行速度要比采用Nvidia A100 GPU的同等機器快1.7倍,效率高出1.9倍。
谷歌在俄克拉荷馬州運行的TPU v4驅動的超級計算機
英偉達從生成式AI的繁榮發(fā)展中受益,用戶對Nvidia A100 GPU的需求激增。A100主要用于訓練大型語言AI模型,例如OpenAI的GPT-4。
業(yè)界認為,隨著英偉達新的GPU H100即將上市,該公司不太可能對谷歌的這一成就感到擔憂。
谷歌自從2020年以來一直在內部使用TPU v4,并于去年向其谷歌云平臺的客戶提供了這些芯片。該公司最大的大型語言模型 PaLM就是使用兩臺4000 TPU超級計算機進行訓練的。
谷歌研究人員Norm Jouppi和杰出工程師David Patterson在發(fā)表的一篇關于該系統(tǒng)的博客文章中解釋說:“采用光電路交換機可以很容易地繞過故障組件。這種靈活性甚至允許我們改變超級計算機互連的拓撲結構,以加速機器學習模型的性能。”
GlobalData負責半導體市場開發(fā)的Mike Orme表示,采用光電路交換機是谷歌提升超級計算機性能的關鍵。他解釋說:“雖然每個TPU的處理速度都比不上最好的英偉達AI芯片,但谷歌用于連接芯片和在芯片之間傳遞數據的光電路交換技術彌補了性能差異。”
英偉達技術已經成為訓練AI模型的黃金標準,一些大型科技公司購買了數千個Nvidia A100 GPU,試圖在AI的技術競爭中超越對手。而OpenAI用于訓練GPT-4的超級計算機配備了1萬個英偉達GPU,每個零售價高達1萬美元。
Nvidia A100 GPU
最新消息顯示,A100即將被英偉達的最新型號H100所取代。在MLPerf (一個跟蹤處理器性能的開放AI工程聯盟)日前發(fā)布的推理基準測試報告中,H100在功率和效率方面位居行業(yè)榜首。
Nvidia H100 GPU
英偉達聲稱,H100 GPU的運行速度是谷歌拿來進行比較的A100 GPU的9倍。這種速度優(yōu)勢將消除谷歌光電路交換技術帶來的優(yōu)勢。
谷歌90%的AI訓練都使用TPU,但盡管其芯片功能強大,但Orme預計谷歌并不會將其推向第三方使用,因為谷歌并沒有在AI芯片商用市場與英偉達芯片進行競爭的野心,其TPU專門用于谷歌數據中心或其AI超級計算機。”
為什么谷歌之外的用戶很少會使用這項技術?Orme認為是因為谷歌云在公共云市場上的份額很小。根據Synergy Research Group發(fā)布的調查數據,谷歌云的市場份額為11%,落后于AWS和微軟Azure的34%及21%。
同時,谷歌還與英偉達達成協(xié)議,將向谷歌云客戶提供H100 GPU算力,這反映了英偉達在未來一段時間內仍將保持市場領導者地位,連谷歌也離不開。