3億刀,特斯拉1萬個H100集群上線!超算Dojo7月已經開工,全力加速L4自動駕駛
根據特斯拉爆料人士Sawyer Merritt爆料,特斯拉將于美國時間本周一上線備受期待的,由1萬片H100組成的超級計算機。
這個GPU集群將用來訓練包括特斯拉FSD自動駕駛系統在內的各種AI應用。
這個GPU集群由一萬個英偉達H100GPU組成,能提供340 FP64 PFLOPS的峰值算力,為AI提供39.58 INT8 ExaFLOPS的峰值算力。
這個算力峰值超過了之前全世界排名第四的超算Leonardo所能提供的算力。
憑借這臺超級計算機,特斯拉可以迅速訓練并更新它的全自動駕駛(FSD)技術。
這個H100 集群不僅讓特斯拉相比其他汽車制造商更具競爭力,而且將使特斯拉擁有夸張的算力儲備。
馬老板上個月甚至發推稱:「坦白說……如果英偉達能提供足夠的GPU,我們可能就不需要 Dojo。」
特斯拉的算力儲備有什么用?
而且對于特斯拉來說,這個H100集群不單代表了無與倫比的算力,還使得擁有海量數據的特斯拉能將這些數據變現的能力。
特斯拉工程技術總監Tim Zaman發推稱,特斯拉上線的H100集群,將被用于訓練視頻數據。
特斯拉擁有的訓練數據集可能是全世界最大的,熱連接緩存(hot tier cache)大小超過了200PB,這比大語言模型的數據規模要高幾個數量級!
同時他還稱,特斯拉是真正「物理上」擁有這些GPU集群和算力。很多其他的公司宣稱自己「擁有」多大算力時,其實他們只是能「租到」這些算力。
而對于目前的特斯拉來說,上線H100集群的意義就在于能夠極大地加快最新版FSD V12的上線速度。
馬斯克在兩個月之前稱,最新版的FSD V12版本更新將不再是「測試版」的自動駕駛技術,暗示了這次更新可能真的能帶來完全體的自動駕駛技術。
而就在前幾天,馬斯克自己開著特斯拉來了一場全網關注的FSD V12的演示直播。
直播中,新版的FSD V12展示出了「絲滑的自動駕駛性能」和出色的駕乘體驗。
FSD V12背后的技術原理,就是將海量的優秀司機駕駛的實時視頻,通過神經網絡訓練成一個全新的自動駕駛AI來駕駛汽車。
特斯拉上線這個H100集群后,將會大大加快FSD V12的訓練速度,這也被上文中特斯拉工程總監的帖子所證實。
馬斯克在推特上稱,V12可能將在不到半年的時間內更新上線!
而除了特斯拉FSD V12之外,特斯拉的人形機器人Optimus也將從特斯拉儲備的巨大算力中獲益。
網友分析到,因為智能機器人的工作原理,本質上也是從視頻信號中去理解周圍的世界。這和自動駕駛的本質是一樣的,只是形態和控制方式有區別。
特斯拉超算Dojo怎么樣了?
Tesla上線H100 GPU 集群的同時,也在激活自己研發制造的超算Dojo。下圖是特斯拉內部對Dojo計算能力的預測。
2024 年 10 月,Dojo 的計算能力也有望達到 100 exaflops。
在2021年的AI Day上,特斯拉第一次公布了自己超算——Dojo。
快兩年時間過去了,在今年7月推特(現X)科技爆料賬戶Whole Mars Catalog爆料Dojo已經正式開始開始工作了。
這一消息也得到了馬斯克本人的點贊確認。
整個超算由這樣的計算模塊構成
每個模塊上有25個Soc,模塊之間通過高速寬帶連接。
然后將模塊用主機盒固定起來,所有的接口都集成在了系統托盤上。
然后將兩個帶有主機組件的系統托盤安裝到一個Dojo機柜中。
頂部的圖例展示的是每個Soc的負載。
而現在,擁有Dojo和1萬塊H100集群的Tesla,正式加入了算力軍備競賽當中。