向英偉達(dá)發(fā)起挑戰(zhàn)的Groq是什么來頭?簡(jiǎn)單科普新型AI芯片LPU
在如今的人工智能領(lǐng)域,「GPU is All You Need」已經(jīng)逐漸成為共識(shí)。沒有充足的 GPU,連 OpenAI 都不能輕易升級(jí) ChatGPT。
不過最近,GPU 的地位也在經(jīng)受挑戰(zhàn):一家名為 Groq 的初創(chuàng)公司開發(fā)出了一種新的 AI 處理器 ——LPU(Language Processing Unit),其推理速度相較于英偉達(dá) GPU 提高了 10 倍,成本卻降低到十分之一。
在一項(xiàng)展示中,LPU 以每秒超過 100 個(gè)詞組的驚人速度執(zhí)行了開源的大型語言模型 —— 擁有 700 億個(gè)參數(shù)的 Llama-2。下圖展示了它的速度,可以看到,人眼的閱讀速度根本跟不上 LPU 上模型的生成速度:
此外,它還在 Mixtral 中展示了自己的實(shí)力,實(shí)現(xiàn)了每個(gè)用戶每秒近 500 個(gè) token。
這一突破凸顯了計(jì)算模式的潛在轉(zhuǎn)變,即在處理基于語言的任務(wù)時(shí),LPU 可以提供一種專業(yè)化、更高效的替代方案,挑戰(zhàn)傳統(tǒng)上占主導(dǎo)地位的 GPU。
不過,原阿里技術(shù)副總裁、Lepton AI 創(chuàng)始人賈揚(yáng)清發(fā)文分析稱,Groq 的實(shí)際部署成本可能遠(yuǎn)高于預(yù)期。因?yàn)?Groq 的內(nèi)存容量較小,運(yùn)行同一模型(LLaMA 70B)最少需要 305 張 Groq 卡(實(shí)際需要 572 張),而使用英偉達(dá)的 H100 只需 8 張卡。從目前的價(jià)格來看,Groq 的硬件成本是 H100 的 40 倍,能耗成本是 10 倍。如果運(yùn)行三年的話,Groq 的硬件采購成本是 1144 萬美元,運(yùn)營(yíng)成本是 76.2 萬美元或更高。8 卡 H100 的硬件采購成本是 30 萬美元,運(yùn)營(yíng)成本是 7.2 萬美元或略低。因此,雖然 Groq 的性能出色,但成本和能耗方面仍有待改進(jìn)。
此外,Groq 的 LPU 不夠通用也是一大弱點(diǎn),這使得它短期內(nèi)很難撼動(dòng)英偉達(dá) GPU 的地位。
下文將介紹與 LPU 有關(guān)的一系列知識(shí)。
LPU 是什么?
究竟什么是 LPU?它的運(yùn)作機(jī)制是怎樣的?Groq 這家公司是什么來頭?
根據(jù) Groq 官網(wǎng)介紹,LPU 是「language processing units(語言處理單元)」的縮寫。它是「一種新型端到端處理單元系統(tǒng),可為人工智能語言應(yīng)用等具有序列成分的計(jì)算密集型應(yīng)用提供最快的推理」。
還記得 2016 年 AlphaGo 擊敗世界冠軍李世石的那場(chǎng)歷史性圍棋比賽嗎?有趣的是,在他們對(duì)決的一個(gè)月前,AlphaGo 輸?shù)袅艘粓?chǎng)練習(xí)賽。在此之后,DeepMind 團(tuán)隊(duì)將 AlphaGo 轉(zhuǎn)移到 TPU 上,大大提高了它的性能,從而以較大優(yōu)勢(shì)取得了勝利。
這一刻顯示了處理能力在充分釋放復(fù)雜計(jì)算潛能方面的關(guān)鍵作用。這激勵(lì)了最初在谷歌領(lǐng)導(dǎo) TPU 項(xiàng)目的 Jonathan Ross,他于 2016 年成立了 Groq 公司,并由此開發(fā)出了 LPU。LPU 經(jīng)過獨(dú)特設(shè)計(jì),可迅速處理基于語言的操作。與同時(shí)處理多項(xiàng)任務(wù)(并行處理)的傳統(tǒng)芯片不同,LPU 是按順序處理任務(wù)(序列處理),因此在語言理解和生成方面非常有效。
打個(gè)比方,在接力賽中,每個(gè)參賽者(芯片)都將接力棒(數(shù)據(jù))交給下一個(gè)人,從而大大加快了比賽進(jìn)程。LPU 的具體目標(biāo)是解決大型語言模型 (LLM) 在計(jì)算密度和內(nèi)存帶寬方面的雙重挑戰(zhàn)。
Groq 從一開始就采取了創(chuàng)新戰(zhàn)略,將軟件和編譯器的創(chuàng)新放在硬件開發(fā)之前。這種方法確保了編程能夠引導(dǎo)芯片間的通信,促進(jìn)它們協(xié)調(diào)高效地運(yùn)行,就像生產(chǎn)線上運(yùn)轉(zhuǎn)良好的機(jī)器一樣。
因此,LPU 在快速高效地管理語言任務(wù)方面表現(xiàn)出色,非常適合需要文本解釋或生成的應(yīng)用。這一突破使系統(tǒng)不僅在速度上超越了傳統(tǒng)配置,而且在成本效益和降低能耗方面也更勝一籌。這種進(jìn)步對(duì)金融、政府和技術(shù)等行業(yè)具有重要意義,因?yàn)樵谶@些行業(yè)中,快速和精確的數(shù)據(jù)處理至關(guān)重要。
LPU 溯源
如果想要深入了解 LPU 的架構(gòu),可以去讀 Groq 發(fā)表的兩篇論文。
第一篇是 2020 年的《Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads》。在這篇論文中,Groq 介紹了一種名為 TSP 的架構(gòu),這是一種功能分片微架構(gòu),其內(nèi)存單元與向量和矩陣深度學(xué)習(xí)功能單元交錯(cuò)排列,以利用深度學(xué)習(xí)運(yùn)算的數(shù)據(jù)流局部性。
論文鏈接:https://wow.groq.com/wp-content/uploads/2020/06/ISCA-TSP.pdf
第二篇是 2022 年的《A Software-defined Tensor Streaming Multiprocessor for Large-scale Machine Learning》。在這篇論文中,Groq 介紹了用于 TSP 元件大規(guī)模互連網(wǎng)絡(luò)的新型商用軟件定義方法。系統(tǒng)架構(gòu)包括 TSP 互連網(wǎng)絡(luò)的打包、路由和流量控制。
論文鏈接:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf
在 Groq 的詞典中,「LPU」似乎是一個(gè)較新的術(shù)語,因?yàn)樵谶@兩篇論文中都沒有出現(xiàn)。
不過,現(xiàn)在還不是拋棄 GPU 的時(shí)候。因?yàn)楸M管 LPU 擅長(zhǎng)推理任務(wù),能毫不費(fèi)力地將訓(xùn)練好的模型應(yīng)用到新數(shù)據(jù)中,但 GPU 在模型訓(xùn)練階段仍占據(jù)主導(dǎo)地位。LPU 和 GPU 之間的協(xié)同作用可在人工智能硬件領(lǐng)域形成強(qiáng)大的合作伙伴關(guān)系,二者都能在其特定領(lǐng)域發(fā)揮專長(zhǎng)和領(lǐng)先地位。
LPU vs GPU
讓我們比較一下 LPU 和 GPU,以便更清楚地了解它們各自的優(yōu)勢(shì)和局限性。
用途廣泛的 GPU
圖形處理單元(GPU)已經(jīng)超越了其最初用于渲染視頻游戲圖形的設(shè)計(jì)目的,成為人工智能和機(jī)器學(xué)習(xí)工作的關(guān)鍵要素。它們的架構(gòu)是并行處理能力的燈塔,可同時(shí)執(zhí)行數(shù)千個(gè)任務(wù)。
這一特性對(duì)那些需要并行化的算法尤為有利,可有效加速從復(fù)雜模擬到深度學(xué)習(xí)模型訓(xùn)練的各種任務(wù)。
GPU 的多功能性是另一個(gè)值得稱道的特點(diǎn);它能熟練處理各種任務(wù),不僅限于人工智能,還包括游戲和視頻渲染。它的并行處理能力大大加快了 ML 模型的訓(xùn)練和推理階段,顯示出顯著的速度優(yōu)勢(shì)。
然而,GPU 并非沒有局限性。它的高性能是以大量能耗為代價(jià)的,這給能效帶來了挑戰(zhàn)。此外,GPU 的通用設(shè)計(jì)雖然靈活,但并不總能為特定的人工智能任務(wù)提供最高效率,這也暗示了其在專業(yè)應(yīng)用中潛在的低效問題。
擅長(zhǎng)語言處理的 LPU
語言處理單元(LPU)代表了 AI 處理器技術(shù)的最前沿,其設(shè)計(jì)理念深深植根于自然語言處理(NLP)任務(wù)。與 GPU 不同,LPU 針對(duì)序列處理進(jìn)行了優(yōu)化,這是準(zhǔn)確理解和生成人類語言的必要條件。這種專業(yè)化賦予了 LPU 在 NLP 應(yīng)用中的卓越性能,使其在翻譯和內(nèi)容生成等任務(wù)中超越了通用處理器。LPU 處理語言模型的效率非常突出,有可能減少 NLP 任務(wù)的時(shí)間和能源消耗。
然而,LPU 的專業(yè)化是一把雙刃劍。雖然它們?cè)谡Z言處理方面表現(xiàn)出色,但其應(yīng)用范圍較窄。這限制了它們?cè)诟鼜V泛的 AI 任務(wù)范圍內(nèi)的通用性。此外,作為新興技術(shù),LPU 還沒有得到社區(qū)的廣泛支持,可用性也面臨挑戰(zhàn)。不過,隨著時(shí)間的推移和該技術(shù)逐步被采用,這些差距可能在未來得到彌補(bǔ)。
Groq LPU 會(huì)改變?nèi)斯ぶ悄芡评淼奈磥韱幔?/span>
圍繞 LPU 與 GPU 的爭(zhēng)論越來越多。去年年底,Groq 公司的公關(guān)團(tuán)隊(duì)稱其為人工智能發(fā)展的關(guān)鍵參與者,這引起了人們的興趣。
今年,人們重新燃起了興趣,希望了解這家公司是否代表了人工智能炒作周期中的又一個(gè)轉(zhuǎn)瞬即逝的時(shí)刻 —— 宣傳似乎推動(dòng)了認(rèn)知度的提高,但它的 LPU 是否真正標(biāo)志著人工智能推理邁出了革命性的一步?人們還對(duì)該公司相對(duì)較小的團(tuán)隊(duì)的經(jīng)驗(yàn)提出了疑問,尤其是在科技硬件領(lǐng)域獲得巨大認(rèn)可之后。
一個(gè)關(guān)鍵時(shí)刻到來了,社交媒體上的一篇帖子大大提高了人們對(duì)該公司的興趣,在短短一天內(nèi)就有數(shù)千人詢問如何使用其技術(shù)。公司創(chuàng)始人在一次視頻通話中分享了這些細(xì)節(jié),強(qiáng)調(diào)了熱烈的反響以及他們目前由于沒有計(jì)費(fèi)系統(tǒng)而免費(fèi)提供技術(shù)的做法。
公司創(chuàng)始人對(duì)硅谷的創(chuàng)業(yè)生態(tài)系統(tǒng)并不陌生。自 2016 年公司成立以來,他一直是公司技術(shù)潛力的倡導(dǎo)者。此前,他曾在另一家大型科技公司參與開發(fā)一項(xiàng)關(guān)鍵的計(jì)算技術(shù),這為他創(chuàng)辦這家新企業(yè)奠定了基礎(chǔ)。這段經(jīng)歷對(duì)公司形成獨(dú)特的硬件開發(fā)方法至關(guān)重要,公司從一開始就注重用戶體驗(yàn),在進(jìn)入芯片的物理設(shè)計(jì)之前,公司最初主要致力于軟件工具的開發(fā)。
隨著業(yè)界繼續(xù)評(píng)估此類創(chuàng)新的影響,LPU 重新定義人工智能應(yīng)用中的計(jì)算方法的潛力仍然是一個(gè)引人注目的討論點(diǎn),預(yù)示著人工智能技術(shù)將迎來變革性的未來。