大模型圈熱議“GPU貧民”：谷歌算力被曝比其他公司加起來都多，扎創業公司心了

2023-08-29 18:12:21

人工智能

早在GPT-2時代Noam Shazeer就在谷歌寫了一份內部備忘錄，預測了未來大模型將以各種方式融入人們的生活，但當時這個觀點并未被谷歌重視。

一夜醒來，大模型圈都在熱議一個詞——“GPU貧民”（GPU-Poor）。

來自行業分析機構SemiAnalysis的一篇報告，爆料谷歌擁有的算力資源比OpenAI、Meta、亞馬遜、甲骨文和CoreWeave加起來還要多。

分析師Dylan Patel預測，谷歌DeepMind聯手的下一代大模型Gemini，到年底訓練量將碾壓（Smash）GPT-4達到后者5倍。

報告提出在這種壓倒性的優勢面前，大部分創業公司和開源勢力都成了“GPU貧民”，在用有限的資源苦苦掙扎。

這個既扎眼又扎心的說法迅速成為新梗，在行業里流傳開來。

圖片

上次這么火的梗還是“沒有護城河”。巧了，也是同一位作者搞出來的，另外GPT-4內部架構細節大曝光也是他干的。

被點名的開源扛把子HuggingFace聯合創始人Julien Chaumond表示：不要小看我們貧民啊。

圖片

也有人代表學生在線吐槽：金錢上窮，算力上也窮，說的就是我們博士生了。

圖片

正致力于讓手機跑大模型的知名學者陳天奇表示，未來每個人都會擁有自己的AI助手，其中大多數人都會是“GPU貧民”，但不要低估合起來的總量。

圖片

也有不少人認為，拋開爭議性的內容和大部分內容收費不談，這篇報告的免費前言部分就是對大模型行業現狀的一個很好的批評和總結。

“GPU貧民”在做無用功

報告下筆很不留情，直言很多創業公司在GPU匱乏情況下花費大量時間精力做的事，都是無用功。

比如很多人熱衷使用大模型的輸出微調小模型，然后去刷排行榜，但是評估方法不完善，更注重風格而不是準確性或實用性。

報告還認為各種測量標準不完善的排行榜本身，也是對小公司的誤導，由此產生一大批不實用的模型，對開源運動也是一種傷害。

另一方面，GPU貧民們反而對資源的利用效率不高，大多使用密集模型，主要基于開源的羊駝生態。

但是OpenAI谷歌這些巨頭已經在玩MoE架構這樣的稀疏模型，以及利用小模型投機采樣（speculative decoding）提高推理效率了，完全是兩個游戲。

作者希望GPU貧民們不應該過度限制模型規模以及過度量化，而忽視模型質量下降。應該專注于在共享的基礎設施上高效地提供微調模型，減少延遲和內存帶寬需求，滿足邊緣計算的需求。

看到這里，也有人提出不同意見，認為創造性的突破往往正是來自有限制的環境，這反而是某種優勢。

圖片

但Perplexity.AI聯合創始人Aravind Srinivas認為，GPU豐富的組織實際也會投資于帶限制條件的研究。

并且要找到下一個像Transformer這樣的突破，需要成千上萬次的實驗，要求的資源絕對不低。

圖片

“GPU土豪”的游戲怎么玩

那么GPU平民的另一面，谷歌這個“GPU土豪”在做什么呢？。

嚴格來說，谷歌算力不是GPU而是自家TPU。報告認為雖然TPUv5單體性能不如英偉達H100，但是谷歌有最高效的基礎設施架構。

谷歌大腦與DeepMind合并后，聯手訓練對標GPT-4的Gemini大模型。

由前DeepMind兩位研究VP Koray Kavukcuoglu與Oriol Vinyals和前谷歌大腦掌門人Jeff Dean共同領導百人團隊。

根據多方爆料，Gemini預計年內就會發布，更準確的來說是美國的秋季范圍之內（9月23日-12月21日）。

Gemini將整合大模型與AI圖像生成的能力，使用Youtube上93.6億分鐘的視頻字幕訓練，總數據集大小據估計是GPT-4的兩倍。

前DeepMind創始人Hassabis曾透露，Gemini將結合AlphaGo類型系統的一些能力和“其他非常有趣的創新”。

另外谷歌創始人布林也一直在親自參與Gemini研發，包括對模型做評估并協助訓練。

關于Gemini更具體的消息還不多，但是有人推測也將與GPT-4一樣使用MoE架構和投機采樣技術。

8月初Google DeepMind發表的新論文From Sparse to Soft Mixtures of Experts被認為可能與Gemini相關。

圖片

投機采樣能在不損失生成質量的前提下，讓Transformer大模型獲得2-3倍的推理加速。

具體來說是讓小模型生成提前生成一些token并讓大模型做評判，如果接受就讓大模型生成下一個token再重復第一步，如果小模型生成的質量不高再換用大模型。

谷歌一方的投機采樣論文在2022年11月才發表，但之前的爆料認為GPT-4也用了類似的技術。

圖片

實際上投機采樣技術的前身Blockwise Parallel Decoding也來自谷歌，作者中包括Transformer作者中的Noam Shazeer。

Noam Shazeer這個人在谷歌時同時參與了Transformer、MoE和投機采樣的研究，對今天的大模型來說都至關重要，另外他還參與了T5、LaMDA和PaLM等多個大模型研究。

SemiAnalysis的報告中還講了他的一個八卦。

早在GPT-2時代Noam Shazeer就在谷歌寫了一份內部備忘錄，預測了未來大模型將以各種方式融入人們的生活，但當時這個觀點并未被谷歌重視。

現在看來，他預測的很多事都在ChatGPT發布后真實發生了。

不過Noam Shazeer在2021年就離開谷歌創辦了Character.ai，按照這篇報告的說法，他現在也是“GPU貧民”的一份子。

參考鏈接：[1]https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

[2]https://x.com/dylan522p/status/1695956854344749234

[3]https://x.com/AravSrinivas/status/1696182301934395486

[4]https://arxiv.org/abs/2211.17192

責任編輯：武曉燕來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型圈熱議“GPU貧民”：谷歌算力被曝比其他公司加起來都多，扎創業公司心了

“GPU貧民”在做無用功

“GPU土豪”的游戲怎么玩