Meta抄襲DeepSeek大翻車?硅谷大佬爆料亮點滿滿,AI軍備燒錢真相震碎硅谷
誰會首先到達ASI(超級智能)?OpenAI!
大佬斬釘截鐵的回答,讓主持人驚呆了幾秒。
- GPT-4.5到底哪里出了問題?
- 小扎瘋狂挖人,砸出1000萬美金年薪,值得嗎?
- 蘋果在AI競賽中已經徹底落后,接下來他們打算做什么自救?
就在剛剛,AI大V Matthew Berman放出對Dylan Patel長達1小時的訪談,后者爆出不少猛料。
Patel是SemiAnalysis創始人兼CEO。SemiAnalysis的大名,在業內是如雷貫耳,每出一篇關于AI和半導體的重磅分析,都會被業內人士競相轉載,擁有極高的行業影響力。
而Patel本人,對AI領域的認知更是達到了無與倫比的深度和廣度。
在訪談中,Patel表示,如今很多全球頂尖AI公司內部,已經是亂成一鍋粥了!
看完這個訪談,許多網友表示,信息密度實在太大,全程高能,太值得一聽了。
Meta、OpenAI、蘋果、英偉達、xAI、微軟,這些大科技公司在硅谷的混亂局面中,誰將主宰下一個浮沉?
讓我們來看看大佬的犀利分析和預言。
Meta瘋狂掙扎,小扎作困獸之斗
借鑒DeepSeek,結果翻車了?
首先,兩人討論的是最近鬧出了天價挖人風波的Meta。
Llama 4發布已經有一陣子了,當時大家的期待值非常高,但它卻并沒有改變世界,隨后,Behemoth模型又被推遲了。
而在Patel看來,Behemoth恐怕永遠不會發布了。同樣命運的還有Maverick和Scout。這些模型的一些訓練方式和決策,后來被證明是行不通的。
本來在發布時,有個模型感覺還行,但后來在阿里和DeepSeek發的新模型前,一下子就顯得遜色了。
而另一個模型,客觀上來講就是很差勁。Patel表示,我敢打賭,那個模型就是為了應對DeepSeek而趕工出來的。
他們借鑒了DeepSeek的MoE架構,但搞砸了,如果仔細去看,這個模型甚至不會把Token傳送到某些專家模塊,可以說訓練基本就是白費了!
最終結果,就是一堆專家在那里無所事事,顯然訓練出了問題。
詭異的是,Meta明明擁有全球最頂尖的人才,也不缺算力,怎么就搞砸了?
這一點,他們應該向OpenAI學習。
奧特曼負責搞定所有資源,Greg Brockman和Mark Chen等人則是技術領袖,總之,要有一個懂技術、能做決斷、能選對方向的領導。
否則,后果就是這些頂尖研究員會把時間浪費在錯誤的路線上。
事實上,[品味」非常重要,判斷什么值得研究、什么不值得,這本身就是一種藝術。
一個想法當然可以用幾十萬個GPU跑一次來驗證,但事情不會完美地等比放大,這其中需要大量的品味和直覺。
如果錯誤的人通過一些政治手段,讓自己的想法和研究路徑被采納進了模型,結果很可能就是翻車。
小扎為何突然轉向AGI
最近,無論是收購Scale AI(本質上是收購Alexandre Wang),還是1000萬美元年薪天價挖來OpenAI員工,都讓小扎處于爭議的風口浪尖。
Patel點評到,Scale AI作為一家公司,現在業務基本上是完蛋了,因為谷歌在內的所有公司,都在取消和他們的合同(據說谷歌今年本來要在Scale AI身上花2.5億美元的)。
而OpenAI,也已經和Scale AI徹底決裂。沒有任何一家公司,希望Meta知道自己的數據在用來干什么。
Patel指出,最近這幾個月,小扎的轉變十分微妙。
在幾個月前的采訪中,他還認為ASI短期內不會實現。但如今,他真的信了ASI,所以,要做什么才能追上來?
目前,他還是純靠砸錢。OpenAI、SSI、Thinking Machines的全明星團隊,基本被他挖了個遍。
甚至傳聞中,Meta愿意開出上億美元年薪,挖不動人,就買下整個公司。
這場AI軍備競賽的本質是什么?
說到底,還是對「權力」的爭奪:誰能帶隊造出超級智能、誰就能掌控萬億級公司的AI戰略,能把產品推向數十億用戶。
這,是一場產品人、理想主義者和科技巨頭之間的全面競速。
超級智能,已經不是「能不能」,而是「誰先」。
其實要說到底,在超級智能這塊,真正引領潮流的還是Ilya。
他總是率先看到一切??梢哉f,是Ilya引領了這波敘事轉向。他先創辦了自己的公司SSI(安全超級智能),大概在一年后,所有人都開始相信超級智能了。
而對于預訓練規模化、推理、早期的視覺網絡,他也是最早開始深入研究的一批人之一。
但對于小扎的收購,他果斷拒絕了。可以看出來,Ilya根本不在乎錢,他想要的就是實現ASI,是一個真正的信徒。
而對Meta來說,如果最終目標是超級智能,那么相比Meta目前的市值,以及AI的整個潛在市場,無論是1億美元,還是10億美元,都只是滄海一粟而已。
GPT-4.5的失敗,究竟是因為什么?
接下來,主持人拋出了這個問題:GPT-4.5到底怎么了?
Patel一句話金句總結:總的來說,它沒什么用,而且太慢了。
曾經,GPT-4.5的內部代號是Orion,本來被寄望于成為GPT-5。
為此,OpenAI下了血本,從2024年初就開始訓練,全力押注規模。他們用上了所有數據,造出一個大得離譜的模型。
結果呢?Patel表示,雖然它的確是第一個把自己逗笑的模型,但并沒有那么好用,速度太慢,也太貴了。
慘敗的原因就在于「過度參數化」——
它并不是在建立世界模型,而是在泛化。某種程度上,GPT-4.5就是因為太大、過度參數化,記住了太多東西,所以就不再進步了。
要知道,剛開始,OpenAI內部都覺得它要在基準測試上大殺四方了,然后事實卻讓所有人失望了。
而且倒霉的是,訓練代碼里還有個bug,直接持續了幾個月。雖然這個bug很小,卻攪亂了整個訓練。好在最終,研究者們發現并修復了這個PyTorch內部的bug。
另外,他們還不得不頻繁地從checkpoint重啟訓練,原因就在于模型太大、太復雜了,任何環節都可能出錯。
而且,就算基礎設施、代碼都完美無瑕,仍然可能遇到數據的問題。
在2022年,谷歌DeepMind在發表的Chinchilla論文里,提到過模型參數量和Token數的最佳比例(訓練數據量大約應該是模型參數量的20倍)。
這就是大家公認的Scaling Law——模型做得越大,投入的flops越多,模型就越好。
然而如今,隨著模型架構的變化,這篇論文里的結論已經不再適用了。
在2024年初開始訓練GPT-4.5時,他們就不得不使用了遠超Token數量的參數。
然而與此同時,OpenAI的另一個團隊卻有了關于推理的神奇發現,就是當時被傳得沸沸揚揚的「Strawberry」。
已經投入巨資訓練龐然大物的OpenAI才發現,原來完全靠推理,就可以用低得多的成本讓模型的效率和質量得到巨大提升。
總之,GPT-4.5之所以失敗,就是因為數據不夠。而最終,Strawberry證明了推理的魔力。
OpenAI和微軟:昔日CP,分道揚鑣
另一方面,曾經的OpenAI和微軟這對「AI界最強CP」,顯然也過了蜜月期。
過去幾年,OpenAI靠著微軟的大力投資和Azure算力迅速崛起,然而兩家公司的合作協議,實在是太過復雜——
微軟沒有OpenAI的股權,卻擁有它大部分利潤的分成權、所有IP使用權,甚至在AGI實現前,能使用OpenAI的所有技術。
也就是說,只要你造出了超級智能,微軟就能在頭一天把代碼全部打包帶走。
而且,起初OpenAI還被限制只能用微軟的云服務,但隨著星際之門的推進,他們也開始和Oracle、CoreWeave合作。
然而,微軟雖然放棄了獨家權,但保留了「優先承購權」以降低反壟斷風險。
問題是,如今的OpenAI野心膨脹,想成為地球上最為資本密集的初創公司,因此燒錢無上限、五年內不打算盈利,還要不斷融資;而微軟呢,雖然手握代碼庫,卻還沒真正動手自己搞模型。
雙方都一樣,心照不宣地防備彼此。接下來,誰先走出下一步,這種脆弱的平衡,就很可能要打破了。
蘋果,在AI上重大失誤
而在目前的AI大戰中,蘋果似乎是顯而易見的輸家了。
他們既沒公開大模型、也沒泄露任何研發細節。業內已經普遍認為,這不是「佛系」,而是徹底的結構性落后。
要深究原因的話,就是蘋果保守的收購策略、對開源文化的疏離、對GPU巨頭英偉達的長期芥蒂,以及自身缺乏AI研究氛圍的現狀,都讓它很難吸引到頂尖的AI人才。
因此,在Meta、OpenAI、Anthropic等公司瘋狂搶人的同時,蘋果最多只能招到「第二梯隊」的人才。
而他們所推崇的端側AI之路,也沒那么容易走通。
雖然蘋果在大力強調隱私與低延遲,但現實卻是,大模型越來越龐大,手機芯片根本跑不動。
而大多數用戶寧可免費用云端AI,也不愿為本地推理多掏幾百美元去買硬件。
而且即便是能在設備上跑通一些輕量任務(比如鍵盤預測),真正復雜的AI服務——搜索、日程規劃、訂票助手,依然還是需要依賴云端數據與算力。
蘋果也清楚這一點。
所以,他們正悄悄建造超大數據中心,部署Mac芯片做云端AI推理,還挖來了谷歌TPU團隊的關鍵人物,希望自研AI加速器。
可見,雖然表面強調的是「本地AI」,但他們真正押注的,其實還是云端。
別家都在卷大模型,但蘋果已經另辟蹊徑,開始為AI時代的「云大戰」做準備了。
超級智能,靠燒錢能到達?
所以最終,在Meta、谷歌、OpenAI、微軟、特斯拉這些公司中,如果必須選一家來賭誰會率先實現ASI,你會選誰?
Dylan Patel的答案是——OpenAI。
原因在于,他們是每個重大突破的先行者,幾乎主導了每一個關鍵技術突破——從預訓練到推理,再到多模態能力,始終走在最前面。
而且,單靠推理可能并不會帶我們進入下一代AI,最終一定還得有別的東西。OpenAI給人感覺,還在醞釀著更大的技術野心。
而第二名,就是Anthropic。
不過,雖然他們技術強大、團隊深厚,但風格卻太保守了——無論在模型發布、研究透明度、安全策略上。都是步步為營,小心謹慎。
不過可以看到,現在他們也逐漸放開了,Claude 4的發布節奏就明顯比Claude 3快很多,招聘也開始招「正常人」了。
而第三名,就是谷歌、Meta 和xAI之爭。
其中,谷歌技術底子雄厚,xAI有馬斯克資源加持,而Meta則是不吝砸巨資挖人。
如今,這場超級智能之戰才剛剛開始,誰都有可能先到終點。
而這過程中比拼的可不僅僅是技術,而是意志與資源的全面博弈。