人工智能正在推動芯片的復(fù)興

作者：佚名 2020-05-13 20:40:16

人工智能（AI）引發(fā)了半導(dǎo)體創(chuàng)新的“新黃金時(shí)代”——機(jī)器學(xué)習(xí)帶來獨(dú)特的市場需求，第一次激發(fā)了企業(yè)家們，去重新思考芯片架構(gòu)的基本原則。

半導(dǎo)體是數(shù)字時(shí)代的一項(xiàng)基礎(chǔ)技術(shù)。美國硅谷的名字正是源自于此。過去半個(gè)世紀(jì)以來，計(jì)算技術(shù)的革命改變著社會的方方面面，而半導(dǎo)體技術(shù)正是這場革命的核心。

自英特爾1971年推出全球第一個(gè)微處理器以來，計(jì)算能力一直以令人驚嘆的步伐發(fā)展演進(jìn)著。根據(jù)摩爾定律，當(dāng)前的計(jì)算機(jī)芯片比50年前的芯片在功能上強(qiáng)大數(shù)百萬倍。

盡管數(shù)十年來處理能力飛速增長，但直到現(xiàn)在，計(jì)算機(jī)芯片的基本體系結(jié)構(gòu)仍然沒有太大改變。很大程度上說，芯片的創(chuàng)新，需要進(jìn)一步縮小晶體管的體積，讓集成電路可以容納更多晶體管。數(shù)十年來，英特爾和AMD等廠商通過提高CPU性能而取得了長足的發(fā)展，被Clayton Christensen視為“持續(xù)的創(chuàng)新”。

今天，這種情況正在發(fā)生著巨大的變化。人工智能（AI）引發(fā)了半導(dǎo)體創(chuàng)新的“新黃金時(shí)代”——機(jī)器學(xué)習(xí)帶來獨(dú)特的市場需求和無限的機(jī)會，第一次激發(fā)了企業(yè)家們，去重新思考芯片架構(gòu)的基本原則。

他們的目標(biāo)，是設(shè)計(jì)一種專為AI設(shè)計(jì)的新型芯片，為下一代計(jì)算提供動力，這也是當(dāng)前所有硬件領(lǐng)域最大的市場機(jī)遇之一。

[[326007]]

新的計(jì)算范式

在計(jì)算技術(shù)發(fā)展的歷史中，主流的芯片架構(gòu)一直是CPU。如今，CPU無處不在，它為筆記本電腦、移動設(shè)備和大多數(shù)數(shù)據(jù)中心提供動力。

1945年，傳奇人物約翰·馮·諾伊曼（John von Neumann）構(gòu)思了CPU的基本架構(gòu)。值得注意的是，此后他的這一設(shè)計(jì)基本沒有太大變化，今天，大多數(shù)計(jì)算機(jī)仍是基于馮·諾依曼理論的機(jī)器。

CPU的靈活性使得它有各種各樣的用途：CPU是通用的，能夠有效執(zhí)行軟件所需的任何計(jì)算。不過盡管CPU的主要優(yōu)勢是多功能性，然而如今領(lǐng)先的AI技術(shù)需要的，是一種非常特殊且密集的計(jì)算。

深度學(xué)習(xí)需要迭代執(zhí)行數(shù)百萬甚至是數(shù)十億個(gè)相對簡單的乘法和加法步驟。深度學(xué)習(xí)以線性代數(shù)為基礎(chǔ)，在根本上是基于試錯法的：對參數(shù)進(jìn)行調(diào)整，對矩陣進(jìn)行乘法運(yùn)算，隨著模型自身的不斷優(yōu)化，在整個(gè)神經(jīng)網(wǎng)絡(luò)中反復(fù)進(jìn)行數(shù)字求和。

這種重復(fù)性的、計(jì)算量巨大的工作流程，對于硬件體系結(jié)構(gòu)有很重要的要求。「并行化」變得至關(guān)重要，「并行」指的是：處理器能夠同時(shí)、而不是一個(gè)接一個(gè)地執(zhí)行多個(gè)計(jì)算的能力。與之緊密相關(guān)的是，深度學(xué)習(xí)涉及大量數(shù)據(jù)的連續(xù)轉(zhuǎn)換，因此讓芯片內(nèi)存和計(jì)算核心盡可能靠近數(shù)據(jù)所在的位置，可以減少數(shù)據(jù)移動，從而大幅提升速度和效率。

CPU尚不足以支持機(jī)器學(xué)習(xí)的獨(dú)特需求。CPU是按順序而非并行地處理計(jì)算任務(wù)，CPU的計(jì)算核心和內(nèi)存通常位于單獨(dú)的模塊上，通過帶寬受限的通信系統(tǒng)（總線）進(jìn)行連接。這就造成了數(shù)據(jù)移動的瓶頸，稱為“馮·諾依曼瓶頸”，導(dǎo)致的結(jié)果就是，在CPU上訓(xùn)練神經(jīng)網(wǎng)絡(luò)的效率非常低。

隨著機(jī)器學(xué)習(xí)正在日益普及，傳統(tǒng)芯片已經(jīng)無法應(yīng)對現(xiàn)代AI算法的要求，這一點(diǎn)正變得愈加突出。正如AI專家Yann LeCun最近所說的：“如果你能穿越到未來五年或者十年，看看計(jì)算機(jī)大部分時(shí)間都在做些什么的話，我認(rèn)為很可能是機(jī)器學(xué)習(xí)之類的事情。”

這時(shí)候，就需要GPU來推動AI的繁榮發(fā)展了。GPU架構(gòu)是由英偉達(dá)（Nvidia）在1990年代后期為游戲應(yīng)用開發(fā)的。當(dāng)時(shí)GPU被專門用于連續(xù)處理大量數(shù)據(jù)，以高幀速率渲染計(jì)算機(jī)游戲畫面。與CPU不同的是，GPU可以并行地運(yùn)行數(shù)千個(gè)計(jì)算任務(wù)。

在2010年代初，AI領(lǐng)域開始意識到，Nvidia的游戲芯片實(shí)際上非常適合處理機(jī)器學(xué)習(xí)算法所需的工作負(fù)載，于是，GPU幸運(yùn)地找到了新的目標(biāo)市場。Nvidia抓住了這個(gè)機(jī)遇，將自己定位為“AI硬件市場領(lǐng)先提供商”，結(jié)果收獲了驚人的收益——從2013年到2018年，Nvidia的市值增長了20倍。

然而，正如Gartner分析師Mark Hung所說，“大家知道GPU并非針對AI工作負(fù)載進(jìn)行了優(yōu)化。”雖然GPU已經(jīng)被AI領(lǐng)域廣泛采用，但它并非為AI而生。

近些年來，有一大批企業(yè)家和技術(shù)人員開始重新構(gòu)想計(jì)算機(jī)芯片，從頭開始對其進(jìn)行優(yōu)化，以釋放AI的無限潛力。Alan Kay的一段話令人難忘：“真正認(rèn)真對待軟件的人，應(yīng)該自己制造硬件。”

過去兩年中，有5個(gè)芯片獨(dú)角獸涌現(xiàn)，很多初創(chuàng)公司的估值令人瞠目結(jié)舌。傳統(tǒng)CPU巨頭英特爾為了避免被顛覆，所以進(jìn)行了兩項(xiàng)重大收購：2016年4月以4.08億美元收購了Nervana Systems，2019年12月以20億美元收購了Habana Labs。未來幾年，這場競賽將繼續(xù)進(jìn)行下去，爭奪這個(gè)規(guī)模數(shù)千億美元的市場。

誰會是下一個(gè)英特爾？

巨大的市場機(jī)會，再加上巨大的技術(shù)挑戰(zhàn)，激發(fā)了一大批驚人的創(chuàng)意，意圖打造出一款理想的AI芯片。

新一代AI芯片初創(chuàng)企業(yè)中，最引人注目之一的是Cerebras Systems公司。簡單地說，大膽的Cerebras開發(fā)了有史以來最大的芯片。最近，Cerebras的市值達(dá)到了17億美元，已經(jīng)從Benchmark和Sequoia等頂級投資方那里獲得了2億美元。

Cerebras芯片的規(guī)格令人難以置信，要比典型的微處理器大60倍，是史上第一個(gè)可以容納超過1萬億個(gè)晶體管（準(zhǔn)確地說是1.2萬億個(gè)）的芯片。它的片上內(nèi)存為18 GB，也是有史以來最高的。

將所有計(jì)算能力打包到單個(gè)芯片上，好處是非常誘人的：數(shù)據(jù)傳輸效率大大提升，內(nèi)存與處理并置，可以做大規(guī)模的并行處理；但是，工程上的挑戰(zhàn)也是極大的，幾十年來，制造晶圓級芯片一直是半導(dǎo)體夢寐以求的，但從未實(shí)現(xiàn)。

Cerebras首席執(zhí)行官Andrew Feldman表示：“每個(gè)規(guī)則、每個(gè)工具和每個(gè)制造器件，都是為巧克力曲奇大小的正常尺寸芯片設(shè)計(jì)的，而我們打造的芯片是曲奇盤子那么大。因此每個(gè)步驟我們都要進(jìn)行全新設(shè)計(jì)。”

Cerebras的AI芯片已經(jīng)投入商用：上周，阿貢國家實(shí)驗(yàn)室（Argonne National Laboratory）宣布，將使用Cerebras的芯片來對抗新型冠狀病毒。

另外一家采用了全新芯片設(shè)計(jì)方法的公司，是位于美國灣區(qū)的Groq。與Cerebras相比，Groq的芯片專注于推理，而不是模型訓(xùn)練。Groq的創(chuàng)始團(tuán)隊(duì)擁有世界一流的領(lǐng)域?qū)I(yè)知識：作為最早也是迄今為止最成功的AI芯片之一，Google TPU項(xiàng)目的十個(gè)原始成員中，有八個(gè)人加入了Groq團(tuán)隊(duì)。

Groq顛覆了業(yè)界的傳統(tǒng)觀念，正在打造批量為“1”的芯片，也就是說，一次性處理1個(gè)樣本。據(jù)Groq稱，這種架構(gòu)幾乎可以實(shí)現(xiàn)瞬時(shí)推理，而無需犧牲性能，這對于自動駕駛汽車等時(shí)間敏感型應(yīng)用是至關(guān)重要的。Groq的芯片主要是軟件定義的，具有獨(dú)特的靈活性，是面向未來的。

Groq最近宣布，它的芯片實(shí)現(xiàn)了每秒1萬億次運(yùn)算的速度。如果這是真的話，將成為有史以來速度最快的單模片芯片。

還有另一家公司，沒有哪家公司比它具有更出色的技術(shù)愿景了，這就是Lightmatter。Lightmatter是由幾位光子學(xué)專家創(chuàng)立的，總部位于美國波士頓。Lightmatter正在打造一種AI微處理器，但不是由電信號驅(qū)動，而是由光束驅(qū)動的。目前，Lightmatter已經(jīng)從GV、Spark Capital和Matrix Partners等投資方那里籌集了3300萬美元，以實(shí)現(xiàn)這一愿景。據(jù)Lightmatter稱，這種獨(dú)特的光技術(shù)讓芯片的性能比現(xiàn)有解決方案高10倍。

這個(gè)領(lǐng)域還有其他公司值得關(guān)注。兩家中國公司——地平線機(jī)器人（Horizon Robotics）和寒武紀(jì)科技（Cambricon Technologies），分別獲得了更多的融資和更高的市值。

位于美國帕洛阿爾托的SambaNova Systems公司也得到了豐厚的資金，且技術(shù)精湛，盡管有關(guān)SambaNova的細(xì)節(jié)仍然很少，但它的技術(shù)似乎特別適合自然語言處理。

其他值得注意的初創(chuàng)公司還包括：Graphcore、Wave Computing、Blaize、Mythic和Kneron。

不僅如此，很多科技巨頭也已經(jīng)開始自主開發(fā)專用的AI芯片，例如上述的谷歌TPU。谷歌從2015年開始研發(fā)TPU，領(lǐng)先于技術(shù)曲線的發(fā)展；去年12月，亞馬遜大張旗鼓地公布了Inferentia AI；與此同時(shí)，特斯拉、Facebook和阿里巴巴以及其他科技巨頭也都行動起來了，開始內(nèi)部研發(fā)AI芯片。