人工智能正在推動芯片的復(fù)興
半導(dǎo)體是數(shù)字時(shí)代的一項(xiàng)基礎(chǔ)技術(shù)。美國硅谷的名字正是源自于此。過去半個(gè)世紀(jì)以來,計(jì)算技術(shù)的革命改變著社會的方方面面,而半導(dǎo)體技術(shù)正是這場革命的核心。
自英特爾1971年推出全球第一個(gè)微處理器以來,計(jì)算能力一直以令人驚嘆的步伐發(fā)展演進(jìn)著。根據(jù)摩爾定律,當(dāng)前的計(jì)算機(jī)芯片比50年前的芯片在功能上強(qiáng)大數(shù)百萬倍。
盡管數(shù)十年來處理能力飛速增長,但直到現(xiàn)在,計(jì)算機(jī)芯片的基本體系結(jié)構(gòu)仍然沒有太大改變。很大程度上說,芯片的創(chuàng)新,需要進(jìn)一步縮小晶體管的體積,讓集成電路可以容納更多晶體管。數(shù)十年來,英特爾和AMD等廠商通過提高CPU性能而取得了長足的發(fā)展,被Clayton Christensen視為“持續(xù)的創(chuàng)新”。
今天,這種情況正在發(fā)生著巨大的變化。人工智能(AI)引發(fā)了半導(dǎo)體創(chuàng)新的“新黃金時(shí)代”——機(jī)器學(xué)習(xí)帶來獨(dú)特的市場需求和無限的機(jī)會,第一次激發(fā)了企業(yè)家們,去重新思考芯片架構(gòu)的基本原則。
他們的目標(biāo),是設(shè)計(jì)一種專為AI設(shè)計(jì)的新型芯片,為下一代計(jì)算提供動力,這也是當(dāng)前所有硬件領(lǐng)域最大的市場機(jī)遇之一。
新的計(jì)算范式
在計(jì)算技術(shù)發(fā)展的歷史中,主流的芯片架構(gòu)一直是CPU。如今,CPU無處不在,它為筆記本電腦、移動設(shè)備和大多數(shù)數(shù)據(jù)中心提供動力。
1945年,傳奇人物約翰·馮·諾伊曼(John von Neumann)構(gòu)思了CPU的基本架構(gòu)。值得注意的是,此后他的這一設(shè)計(jì)基本沒有太大變化,今天,大多數(shù)計(jì)算機(jī)仍是基于馮·諾依曼理論的機(jī)器。
CPU的靈活性使得它有各種各樣的用途:CPU是通用的,能夠有效執(zhí)行軟件所需的任何計(jì)算。不過盡管CPU的主要優(yōu)勢是多功能性,然而如今領(lǐng)先的AI技術(shù)需要的,是一種非常特殊且密集的計(jì)算。
深度學(xué)習(xí)需要迭代執(zhí)行數(shù)百萬甚至是數(shù)十億個(gè)相對簡單的乘法和加法步驟。深度學(xué)習(xí)以線性代數(shù)為基礎(chǔ),在根本上是基于試錯法的:對參數(shù)進(jìn)行調(diào)整,對矩陣進(jìn)行乘法運(yùn)算,隨著模型自身的不斷優(yōu)化,在整個(gè)神經(jīng)網(wǎng)絡(luò)中反復(fù)進(jìn)行數(shù)字求和。
這種重復(fù)性的、計(jì)算量巨大的工作流程,對于硬件體系結(jié)構(gòu)有很重要的要求。「并行化」變得至關(guān)重要,「并行」指的是:處理器能夠同時(shí)、而不是一個(gè)接一個(gè)地執(zhí)行多個(gè)計(jì)算的能力。與之緊密相關(guān)的是,深度學(xué)習(xí)涉及大量數(shù)據(jù)的連續(xù)轉(zhuǎn)換,因此讓芯片內(nèi)存和計(jì)算核心盡可能靠近數(shù)據(jù)所在的位置,可以減少數(shù)據(jù)移動,從而大幅提升速度和效率。
CPU尚不足以支持機(jī)器學(xué)習(xí)的獨(dú)特需求。CPU是按順序而非并行地處理計(jì)算任務(wù),CPU的計(jì)算核心和內(nèi)存通常位于單獨(dú)的模塊上,通過帶寬受限的通信系統(tǒng)(總線)進(jìn)行連接。這就造成了數(shù)據(jù)移動的瓶頸,稱為“馮·諾依曼瓶頸”,導(dǎo)致的結(jié)果就是,在CPU上訓(xùn)練神經(jīng)網(wǎng)絡(luò)的效率非常低。
隨著機(jī)器學(xué)習(xí)正在日益普及,傳統(tǒng)芯片已經(jīng)無法應(yīng)對現(xiàn)代AI算法的要求,這一點(diǎn)正變得愈加突出。正如AI專家Yann LeCun最近所說的:“如果你能穿越到未來五年或者十年,看看計(jì)算機(jī)大部分時(shí)間都在做些什么的話,我認(rèn)為很可能是機(jī)器學(xué)習(xí)之類的事情。”
這時(shí)候,就需要GPU來推動AI的繁榮發(fā)展了。GPU架構(gòu)是由英偉達(dá)(Nvidia)在1990年代后期為游戲應(yīng)用開發(fā)的。當(dāng)時(shí)GPU被專門用于連續(xù)處理大量數(shù)據(jù),以高幀速率渲染計(jì)算機(jī)游戲畫面。與CPU不同的是,GPU可以并行地運(yùn)行數(shù)千個(gè)計(jì)算任務(wù)。
在2010年代初,AI領(lǐng)域開始意識到,Nvidia的游戲芯片實(shí)際上非常適合處理機(jī)器學(xué)習(xí)算法所需的工作負(fù)載,于是,GPU幸運(yùn)地找到了新的目標(biāo)市場。Nvidia抓住了這個(gè)機(jī)遇,將自己定位為“AI硬件市場領(lǐng)先提供商”,結(jié)果收獲了驚人的收益——從2013年到2018年,Nvidia的市值增長了20倍。
然而,正如Gartner分析師Mark Hung所說,“大家知道GPU并非針對AI工作負(fù)載進(jìn)行了優(yōu)化。”雖然GPU已經(jīng)被AI領(lǐng)域廣泛采用,但它并非為AI而生。
近些年來,有一大批企業(yè)家和技術(shù)人員開始重新構(gòu)想計(jì)算機(jī)芯片,從頭開始對其進(jìn)行優(yōu)化,以釋放AI的無限潛力。Alan Kay的一段話令人難忘:“真正認(rèn)真對待軟件的人,應(yīng)該自己制造硬件。”
過去兩年中,有5個(gè)芯片獨(dú)角獸涌現(xiàn),很多初創(chuàng)公司的估值令人瞠目結(jié)舌。傳統(tǒng)CPU巨頭英特爾為了避免被顛覆,所以進(jìn)行了兩項(xiàng)重大收購:2016年4月以4.08億美元收購了Nervana Systems,2019年12月以20億美元收購了Habana Labs。未來幾年,這場競賽將繼續(xù)進(jìn)行下去,爭奪這個(gè)規(guī)模數(shù)千億美元的市場。
誰會是下一個(gè)英特爾?
巨大的市場機(jī)會,再加上巨大的技術(shù)挑戰(zhàn),激發(fā)了一大批驚人的創(chuàng)意,意圖打造出一款理想的AI芯片。
新一代AI芯片初創(chuàng)企業(yè)中,最引人注目之一的是Cerebras Systems公司。簡單地說,大膽的Cerebras開發(fā)了有史以來最大的芯片。最近,Cerebras的市值達(dá)到了17億美元,已經(jīng)從Benchmark和Sequoia等頂級投資方那里獲得了2億美元。
Cerebras芯片的規(guī)格令人難以置信,要比典型的微處理器大60倍,是史上第一個(gè)可以容納超過1萬億個(gè)晶體管(準(zhǔn)確地說是1.2萬億個(gè))的芯片。它的片上內(nèi)存為18 GB,也是有史以來最高的。
將所有計(jì)算能力打包到單個(gè)芯片上,好處是非常誘人的:數(shù)據(jù)傳輸效率大大提升,內(nèi)存與處理并置,可以做大規(guī)模的并行處理;但是,工程上的挑戰(zhàn)也是極大的,幾十年來,制造晶圓級芯片一直是半導(dǎo)體夢寐以求的,但從未實(shí)現(xiàn)。
Cerebras首席執(zhí)行官Andrew Feldman表示:“每個(gè)規(guī)則、每個(gè)工具和每個(gè)制造器件,都是為巧克力曲奇大小的正常尺寸芯片設(shè)計(jì)的,而我們打造的芯片是曲奇盤子那么大。因此每個(gè)步驟我們都要進(jìn)行全新設(shè)計(jì)。”
Cerebras的AI芯片已經(jīng)投入商用:上周,阿貢國家實(shí)驗(yàn)室(Argonne National Laboratory)宣布,將使用Cerebras的芯片來對抗新型冠狀病毒。
另外一家采用了全新芯片設(shè)計(jì)方法的公司,是位于美國灣區(qū)的Groq。與Cerebras相比,Groq的芯片專注于推理,而不是模型訓(xùn)練。Groq的創(chuàng)始團(tuán)隊(duì)擁有世界一流的領(lǐng)域?qū)I(yè)知識:作為最早也是迄今為止最成功的AI芯片之一,Google TPU項(xiàng)目的十個(gè)原始成員中,有八個(gè)人加入了Groq團(tuán)隊(duì)。
Groq顛覆了業(yè)界的傳統(tǒng)觀念,正在打造批量為“1”的芯片,也就是說,一次性處理1個(gè)樣本。據(jù)Groq稱,這種架構(gòu)幾乎可以實(shí)現(xiàn)瞬時(shí)推理,而無需犧牲性能,這對于自動駕駛汽車等時(shí)間敏感型應(yīng)用是至關(guān)重要的。Groq的芯片主要是軟件定義的,具有獨(dú)特的靈活性,是面向未來的。
Groq最近宣布,它的芯片實(shí)現(xiàn)了每秒1萬億次運(yùn)算的速度。如果這是真的話,將成為有史以來速度最快的單模片芯片。
還有另一家公司,沒有哪家公司比它具有更出色的技術(shù)愿景了,這就是Lightmatter。Lightmatter是由幾位光子學(xué)專家創(chuàng)立的,總部位于美國波士頓。Lightmatter正在打造一種AI微處理器,但不是由電信號驅(qū)動,而是由光束驅(qū)動的。目前,Lightmatter已經(jīng)從GV、Spark Capital和Matrix Partners等投資方那里籌集了3300萬美元,以實(shí)現(xiàn)這一愿景。據(jù)Lightmatter稱,這種獨(dú)特的光技術(shù)讓芯片的性能比現(xiàn)有解決方案高10倍。
這個(gè)領(lǐng)域還有其他公司值得關(guān)注。兩家中國公司——地平線機(jī)器人(Horizon Robotics)和寒武紀(jì)科技(Cambricon Technologies),分別獲得了更多的融資和更高的市值。
位于美國帕洛阿爾托的SambaNova Systems公司也得到了豐厚的資金,且技術(shù)精湛,盡管有關(guān)SambaNova的細(xì)節(jié)仍然很少,但它的技術(shù)似乎特別適合自然語言處理。
其他值得注意的初創(chuàng)公司還包括:Graphcore、Wave Computing、Blaize、Mythic和Kneron。
不僅如此,很多科技巨頭也已經(jīng)開始自主開發(fā)專用的AI芯片,例如上述的谷歌TPU。谷歌從2015年開始研發(fā)TPU,領(lǐng)先于技術(shù)曲線的發(fā)展;去年12月,亞馬遜大張旗鼓地公布了Inferentia AI;與此同時(shí),特斯拉、Facebook和阿里巴巴以及其他科技巨頭也都行動起來了,開始內(nèi)部研發(fā)AI芯片。
總結(jié)
眼下,一場為即將而來的AI時(shí)代開發(fā)所需的硬件競爭正在上演。如今,半導(dǎo)體行業(yè)的創(chuàng)新之多,是自硅谷創(chuàng)立之初以來從未有過的,巨量資金不斷地投入其中。
未來幾年,下一代芯片將塑造人工智能領(lǐng)域的雛形和軌跡。用Yann LeCun的話來說:“硬件能力...激勵但卻限制了AI研究人員想象并追求的想法。各種我們可以使用的工具正在不斷刷新我們的想法,這一點(diǎn)我們不得不承認(rèn)。”