計算機架構(gòu)的新黃金時代,為什么到了2021年還沒有開始
4 月 21 日,英偉達發(fā)布了 A30 和 A10 GPU 系列 GPU,其安培(Ampere)架構(gòu)、最新制程的性能和軟硬件體系加持,為眾多科技公司在 AI 推理和訓(xùn)練時帶來了新的選擇。該公司預(yù)計在今年夏季,新款芯片即將會出現(xiàn)在眾多公司的云服務(wù)器中。
對于熟悉機器學(xué)習(xí)領(lǐng)域的人們來說,每隔一兩年推出的新一代 GPU,是他們最為關(guān)注的新動向。英偉達的旗艦芯片算力也總是其它芯片創(chuàng)業(yè)公司用來比較的標桿。
但對那些希望尋找人工智能最合適算力的研究者們來說,GPU 因為「過于通用」,常常會被認為并非 AI 的最終解決方案。但迄今為止,英偉達 GPU 仍然占據(jù)市場的主流。在 GPU 引領(lǐng)深度學(xué)習(xí)技術(shù)爆發(fā)之后,AI 芯片領(lǐng)域還會出現(xiàn)新的變化嗎?
和 AI 算法應(yīng)該怎么寫一樣,人們對于芯片應(yīng)該怎么造的思考其實一直都沒有停止,芯片領(lǐng)域里下一個大方向可能在于「特定領(lǐng)域的體系結(jié)構(gòu)(DSA)」。
計算機架構(gòu)傳奇人物、2017 年圖靈獎獲得者 John Hennessy 和 David Patterson 在 2019 年發(fā)表于 ACM 雜志上的文章《計算機架構(gòu)的新黃金時代》中曾提出:當(dāng)摩爾定律不再適用之后,一種更加以硬件為中心的設(shè)計思路——針對特定問題和領(lǐng)域的架構(gòu) DSA 將會展現(xiàn)實力。這是一種特定領(lǐng)域的可編程處理器,它仍是圖靈完備的,但針對特定類別的應(yīng)用進行了定制。
John L. Hennessy 和 David A. Patterson,兩人合著有《計算機體系結(jié)構(gòu):量化研究方法》一書。
從定義上來看,DSA 與專用集成電路 ASIC 不同,后者僅適用于單一功能,運行其上的代碼很難進行修改。DSA 板卡通常被稱為加速器,因為與在通用 CPU 上執(zhí)行整個應(yīng)用程序相比,它們可以加速某些應(yīng)用程序。此外,DSA 可以實現(xiàn)更好的性能,因為它們更貼近應(yīng)用的實際需求。DSA 的例子包括最常見的圖形加速單元(即 GPU),用于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)處理器,以及軟件定義處理器(SDN)。在特定領(lǐng)域的應(yīng)用中,DSA 的效率更高,能耗更低。
通常,適用于 AI 推理的 DSA 處理器無法應(yīng)用于高性能通用計算、光線渲染等任務(wù),但又不像 ASIC 那樣只能勝任很少的一些固化算法任務(wù)。在人工智能的任務(wù)上,DPU 芯片可以有很高的通用性,既支持 NLP,又支持計算機視覺和語音的任務(wù)處理,還可以通過 TVM 等工具覆蓋各種機器學(xué)習(xí)框架。
如果說體系架構(gòu)大師展望的技術(shù)方案是 DSA 成立的充分條件,那么科技公司對于 AI 算力的需求就是 DSA 芯片形成突破的必要因素。
目前,想要通過各種方法來構(gòu)建一塊 GPU,與英偉達實現(xiàn)相似的性能仍然非常困難。但在以數(shù)據(jù)中心為核心的互聯(lián)網(wǎng)新時代,國內(nèi)頭部互聯(lián)網(wǎng)公司的規(guī)模為整個行業(yè)帶來了前所未有的 AI 落地場景。如果能夠準確找到落地需求,構(gòu)建高效的 AI 加速器,不僅可以大幅提升機器學(xué)習(xí)的價值,或許還能催生出潛在的新市場。
在這種情況下,能夠搞清應(yīng)用方向就成為了 DSA 能否成功的關(guān)鍵。如今科技公司需要深度學(xué)習(xí)推斷的業(yè)務(wù)包括推薦系統(tǒng)、內(nèi)容審核、AI 教育、人工智能客服、圖文翻譯等各種方面。圍繞這些業(yè)務(wù),所有互聯(lián)網(wǎng)廠商都產(chǎn)生了大量算力需求。
對于一家半導(dǎo)體公司來說,要想打造一塊能夠完成這些任務(wù)的芯片,其設(shè)計要符合客戶應(yīng)用場景、底層需求,具備高效的實現(xiàn)方式,同時也要在交付成本、維護服務(wù)、更新迭代的速度、軟件友好的程度,甚至銷售策略上具備競爭力。
體系結(jié)構(gòu)之外,另一個契機在于指令集,RISC-V 興起也在讓芯片領(lǐng)域發(fā)生著變化,它的模塊化和可擴展性完美地匹配 DSA 靈活高效的技術(shù)需求。
誕生于 2010 年的 RISC-V 是一個開源的精簡指令集架構(gòu),適用于創(chuàng)建微處理器和微控制器。最早由美國加州大學(xué)伯克利分校(UC Berkeley)的 Krste Asanovic 教授、Andrew Waterman 和 Yunsup Lee 等開發(fā)人員于 2010 年提出,又得到了計算機體系結(jié)構(gòu)大師 David Patterson 的支持。這個架構(gòu)允許開發(fā)者免費開發(fā)和使用,包括直接在芯片上進行商業(yè)化實現(xiàn)。
今年 1 月,外媒報道稱頂級芯片設(shè)計大師 Jim Keller 加入了初創(chuàng)公司 Tenstorrent,擔(dān)任 CTO 以及董事會成員。
據(jù)了解,Tenstorrent 設(shè)計的是高性能 AI 訓(xùn)練和推理,異構(gòu)架構(gòu) AI SoC。該公司設(shè)計了針對機器學(xué)習(xí)優(yōu)化的 Tensix 處理器內(nèi)核,為了運行傳統(tǒng)的工作負載,Tenstorrent 的 SoC 使用 SiFive 的新型通用智能 X280 內(nèi)核,而 X280 是一個 64 位的 RISC-V 內(nèi)核,集成了 512 位寬的 RISC-V 矢量指令擴展(RVV)。
無獨有偶,美國的芯片設(shè)計公司 Pixilica 已與 RV64X 團隊合作,提出了一套新的圖形指令集,旨在融合 CPU-GPU ISA,并將其用于 3D 圖形和媒體處理,從而為 FPGA 創(chuàng)建了開源參考實現(xiàn)。Europena 工具開發(fā)商 Codasip 的高級市場總監(jiān) Roddy Urquhart 表示,這是 RISC-V 生態(tài)系統(tǒng)的優(yōu)勢之一:「如果要創(chuàng)建特定于領(lǐng)域的處理器,關(guān)鍵任務(wù)之一就是選擇符合軟件需求的指令集架構(gòu)(ISA)?!?/p>
「有些公司選擇從頭開始創(chuàng)建指令集,但是如果你有這樣的 ISA,則可能要付出移植軟件的代價。現(xiàn)在,RISC-V 開放式的 ISA 可以提供一個很好的起點和一個軟件生態(tài)系統(tǒng),」Urquhart 表示。RISC-V ISA 以模塊化的方式設(shè)計,使處理器設(shè)計人員不僅可以添加任何標準擴展,還可以創(chuàng)建自己的自定義指令,同時保持完整的 RISC-V 兼容性。
「為特定領(lǐng)域的處理器選擇了起點,然后有必要弄清楚需要哪些特殊指令來滿足你的計算要求。這需要仔細分析你需要在處理器核心上運行的軟件。概要分析工具可以識別計算熱點,一旦了解,設(shè)計人員就可以創(chuàng)建自定義指令來解決這些熱點。」
雖然基于 Arm 架構(gòu)設(shè)計的處理器已出現(xiàn)在幾乎所有智能手機及數(shù)十億電子設(shè)備中,但越來越多人在將目光轉(zhuǎn)向 RISC-V。Linux 的主要開發(fā)者 Arnd Bermann 就認為,到 2030 年我們將看到三種體系結(jié)構(gòu):Arm、RISC-V 和 X86 占據(jù)市場大部分份額。然而對于 DSA 而言,顯然 RISC-V 擁有巨大的優(yōu)勢。
科技公司自造芯片是不是最合理的方式?一些公司已經(jīng)提出了深度結(jié)合自身業(yè)務(wù),并與軟件體系綁定,可以進行 AI 模型訓(xùn)練的芯片,包括亞馬遜的 Inferentia 和 Trainium、谷歌 TPU 等等。但這些算力僅限于對于各家公司自有業(yè)務(wù)體系進行特化,面向的范圍有限。
從一些大廠最近的行動中,我們可以看出人們的思考變化:百度等公司的 AI 芯片業(yè)務(wù)已經(jīng)獨立,而騰訊、字節(jié)跳動等公司則選擇了投資創(chuàng)業(yè)公司的方式,希望能夠培養(yǎng)出面向廣泛市場的新體系。
自 2010 年左右深度學(xué)習(xí)技術(shù)大發(fā)展至今,我們見證過寒武紀、昇騰等芯片橫空出世,又被谷歌、亞馬遜的技術(shù)能力所驚艷,但在無盡的算力需求下,國內(nèi) AI 芯片爆發(fā)的時代似乎依然還沒有到來。
但在最近,指令集、體系架構(gòu)和人工智能應(yīng)用的落地已經(jīng)讓情況發(fā)生了變化。隨著字節(jié)跳動等投資 AI 芯片創(chuàng)業(yè)公司快速流片成功,專屬推理芯片的應(yīng)用獲得良好效果,在科技領(lǐng)域里發(fā)展 DSA 芯片的新風(fēng)向正在出現(xiàn)。
在芯片產(chǎn)品生命的周期中,如果有一家創(chuàng)業(yè)公司可以更加理解場景,定義出最合適的方案,最快地做出實現(xiàn),就可以獲得相對領(lǐng)先的位置。同時,如果這種新的機制催生出了足夠高效的算力,科技公司的開發(fā)者們也可以創(chuàng)造出更多的 AI 應(yīng)用。
根據(jù)目前的估算,國內(nèi)市場每年會出現(xiàn) 20-30 萬片的 AI 推理計算版卡需求。對于國內(nèi)的創(chuàng)業(yè)者來說,這或許會是一個前所未有的發(fā)展機會,實力強大的工程師團隊將會在新的競爭過程中脫穎而出。