計算機架構(gòu)的新黃金時代，為什么到了2021年還沒有開始

作者：澤南 2021-04-27 17:37:35

和 AI 算法應(yīng)該怎么寫一樣，人們對于芯片應(yīng)該怎么造的思考其實一直都沒有停止，芯片領(lǐng)域里下一個大方向可能在于「特定領(lǐng)域的體系結(jié)構(gòu)（DSA）」。

4 月 21 日，英偉達發(fā)布了 A30 和 A10 GPU 系列 GPU，其安培（Ampere）架構(gòu)、最新制程的性能和軟硬件體系加持，為眾多科技公司在 AI 推理和訓(xùn)練時帶來了新的選擇。該公司預(yù)計在今年夏季，新款芯片即將會出現(xiàn)在眾多公司的云服務(wù)器中。

對于熟悉機器學(xué)習(xí)領(lǐng)域的人們來說，每隔一兩年推出的新一代 GPU，是他們最為關(guān)注的新動向。英偉達的旗艦芯片算力也總是其它芯片創(chuàng)業(yè)公司用來比較的標桿。

但對那些希望尋找人工智能最合適算力的研究者們來說，GPU 因為「過于通用」，常常會被認為并非 AI 的最終解決方案。但迄今為止，英偉達 GPU 仍然占據(jù)市場的主流。在 GPU 引領(lǐng)深度學(xué)習(xí)技術(shù)爆發(fā)之后，AI 芯片領(lǐng)域還會出現(xiàn)新的變化嗎？

計算機架構(gòu)傳奇人物、2017 年圖靈獎獲得者 John Hennessy 和 David Patterson 在 2019 年發(fā)表于 ACM 雜志上的文章《計算機架構(gòu)的新黃金時代》中曾提出：當(dāng)摩爾定律不再適用之后，一種更加以硬件為中心的設(shè)計思路——針對特定問題和領(lǐng)域的架構(gòu) DSA 將會展現(xiàn)實力。這是一種特定領(lǐng)域的可編程處理器，它仍是圖靈完備的，但針對特定類別的應(yīng)用進行了定制。

John L. Hennessy 和 David A. Patterson，兩人合著有《計算機體系結(jié)構(gòu)：量化研究方法》一書。

從定義上來看，DSA 與專用集成電路 ASIC 不同，后者僅適用于單一功能，運行其上的代碼很難進行修改。DSA 板卡通常被稱為加速器，因為與在通用 CPU 上執(zhí)行整個應(yīng)用程序相比，它們可以加速某些應(yīng)用程序。此外，DSA 可以實現(xiàn)更好的性能，因為它們更貼近應(yīng)用的實際需求。DSA 的例子包括最常見的圖形加速單元（即 GPU），用于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)處理器，以及軟件定義處理器（SDN）。在特定領(lǐng)域的應(yīng)用中，DSA 的效率更高，能耗更低。

通常，適用于 AI 推理的 DSA 處理器無法應(yīng)用于高性能通用計算、光線渲染等任務(wù)，但又不像 ASIC 那樣只能勝任很少的一些固化算法任務(wù)。在人工智能的任務(wù)上，DPU 芯片可以有很高的通用性，既支持 NLP，又支持計算機視覺和語音的任務(wù)處理，還可以通過 TVM 等工具覆蓋各種機器學(xué)習(xí)框架。

如果說體系架構(gòu)大師展望的技術(shù)方案是 DSA 成立的充分條件，那么科技公司對于 AI 算力的需求就是 DSA 芯片形成突破的必要因素。

目前，想要通過各種方法來構(gòu)建一塊 GPU，與英偉達實現(xiàn)相似的性能仍然非常困難。但在以數(shù)據(jù)中心為核心的互聯(lián)網(wǎng)新時代，國內(nèi)頭部互聯(lián)網(wǎng)公司的規(guī)模為整個行業(yè)帶來了前所未有的 AI 落地場景。如果能夠準確找到落地需求，構(gòu)建高效的 AI 加速器，不僅可以大幅提升機器學(xué)習(xí)的價值，或許還能催生出潛在的新市場。

在這種情況下，能夠搞清應(yīng)用方向就成為了 DSA 能否成功的關(guān)鍵。如今科技公司需要深度學(xué)習(xí)推斷的業(yè)務(wù)包括推薦系統(tǒng)、內(nèi)容審核、AI 教育、人工智能客服、圖文翻譯等各種方面。圍繞這些業(yè)務(wù)，所有互聯(lián)網(wǎng)廠商都產(chǎn)生了大量算力需求。

對于一家半導(dǎo)體公司來說，要想打造一塊能夠完成這些任務(wù)的芯片，其設(shè)計要符合客戶應(yīng)用場景、底層需求，具備高效的實現(xiàn)方式，同時也要在交付成本、維護服務(wù)、更新迭代的速度、軟件友好的程度，甚至銷售策略上具備競爭力。

體系結(jié)構(gòu)之外，另一個契機在于指令集，RISC-V 興起也在讓芯片領(lǐng)域發(fā)生著變化，它的模塊化和可擴展性完美地匹配 DSA 靈活高效的技術(shù)需求。

誕生于 2010 年的 RISC-V 是一個開源的精簡指令集架構(gòu)，適用于創(chuàng)建微處理器和微控制器。最早由美國加州大學(xué)伯克利分校（UC Berkeley）的 Krste Asanovic 教授、Andrew Waterman 和 Yunsup Lee 等開發(fā)人員于 2010 年提出，又得到了計算機體系結(jié)構(gòu)大師 David Patterson 的支持。這個架構(gòu)允許開發(fā)者免費開發(fā)和使用，包括直接在芯片上進行商業(yè)化實現(xiàn)。

今年 1 月，外媒報道稱頂級芯片設(shè)計大師 Jim Keller 加入了初創(chuàng)公司 Tenstorrent，擔(dān)任 CTO 以及董事會成員。

據(jù)了解，Tenstorrent 設(shè)計的是高性能 AI 訓(xùn)練和推理，異構(gòu)架構(gòu) AI SoC。該公司設(shè)計了針對機器學(xué)習(xí)優(yōu)化的 Tensix 處理器內(nèi)核，為了運行傳統(tǒng)的工作負載，Tenstorrent 的 SoC 使用 SiFive 的新型通用智能 X280 內(nèi)核，而 X280 是一個 64 位的 RISC-V 內(nèi)核，集成了 512 位寬的 RISC-V 矢量指令擴展（RVV）。

無獨有偶，美國的芯片設(shè)計公司 Pixilica 已與 RV64X 團隊合作，提出了一套新的圖形指令集，旨在融合 CPU-GPU ISA，并將其用于 3D 圖形和媒體處理，從而為 FPGA 創(chuàng)建了開源參考實現(xiàn)。Europena 工具開發(fā)商 Codasip 的高級市場總監(jiān) Roddy Urquhart 表示，這是 RISC-V 生態(tài)系統(tǒng)的優(yōu)勢之一：「如果要創(chuàng)建特定于領(lǐng)域的處理器，關(guān)鍵任務(wù)之一就是選擇符合軟件需求的指令集架構(gòu)（ISA）?！?/p>

「有些公司選擇從頭開始創(chuàng)建指令集，但是如果你有這樣的 ISA，則可能要付出移植軟件的代價。現(xiàn)在，RISC-V 開放式的 ISA 可以提供一個很好的起點和一個軟件生態(tài)系統(tǒng)，」Urquhart 表示。RISC-V ISA 以模塊化的方式設(shè)計，使處理器設(shè)計人員不僅可以添加任何標準擴展，還可以創(chuàng)建自己的自定義指令，同時保持完整的 RISC-V 兼容性。

「為特定領(lǐng)域的處理器選擇了起點，然后有必要弄清楚需要哪些特殊指令來滿足你的計算要求。這需要仔細分析你需要在處理器核心上運行的軟件。概要分析工具可以識別計算熱點，一旦了解，設(shè)計人員就可以創(chuàng)建自定義指令來解決這些熱點。」

雖然基于 Arm 架構(gòu)設(shè)計的處理器已出現(xiàn)在幾乎所有智能手機及數(shù)十億電子設(shè)備中，但越來越多人在將目光轉(zhuǎn)向 RISC-V。Linux 的主要開發(fā)者 Arnd Bermann 就認為，到 2030 年我們將看到三種體系結(jié)構(gòu)：Arm、RISC-V 和 X86 占據(jù)市場大部分份額。然而對于 DSA 而言，顯然 RISC-V 擁有巨大的優(yōu)勢。

科技公司自造芯片是不是最合理的方式？一些公司已經(jīng)提出了深度結(jié)合自身業(yè)務(wù)，并與軟件體系綁定，可以進行 AI 模型訓(xùn)練的芯片，包括亞馬遜的 Inferentia 和 Trainium、谷歌 TPU 等等。但這些算力僅限于對于各家公司自有業(yè)務(wù)體系進行特化，面向的范圍有限。

從一些大廠最近的行動中，我們可以看出人們的思考變化：百度等公司的 AI 芯片業(yè)務(wù)已經(jīng)獨立，而騰訊、字節(jié)跳動等公司則選擇了投資創(chuàng)業(yè)公司的方式，希望能夠培養(yǎng)出面向廣泛市場的新體系。

自 2010 年左右深度學(xué)習(xí)技術(shù)大發(fā)展至今，我們見證過寒武紀、昇騰等芯片橫空出世，又被谷歌、亞馬遜的技術(shù)能力所驚艷，但在無盡的算力需求下，國內(nèi) AI 芯片爆發(fā)的時代似乎依然還沒有到來。

但在最近，指令集、體系架構(gòu)和人工智能應(yīng)用的落地已經(jīng)讓情況發(fā)生了變化。隨著字節(jié)跳動等投資 AI 芯片創(chuàng)業(yè)公司快速流片成功，專屬推理芯片的應(yīng)用獲得良好效果，在科技領(lǐng)域里發(fā)展 DSA 芯片的新風(fēng)向正在出現(xiàn)。

在芯片產(chǎn)品生命的周期中，如果有一家創(chuàng)業(yè)公司可以更加理解場景，定義出最合適的方案，最快地做出實現(xiàn)，就可以獲得相對領(lǐng)先的位置。同時，如果這種新的機制催生出了足夠高效的算力，科技公司的開發(fā)者們也可以創(chuàng)造出更多的 AI 應(yīng)用。

根據(jù)目前的估算，國內(nèi)市場每年會出現(xiàn) 20-30 萬片的 AI 推理計算版卡需求。對于國內(nèi)的創(chuàng)業(yè)者來說，這或許會是一個前所未有的發(fā)展機會，實力強大的工程師團隊將會在新的競爭過程中脫穎而出。

責(zé)任編輯：張燕妮來源：機器之心Pro

架構(gòu)運維技術(shù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

計算機架構(gòu)的新黃金時代，為什么到了2021年還沒有開始

計算機架構(gòu)的新黃金時代，為什么到了2021年還沒有開始