Llama 4訓(xùn)練作弊爆出驚天丑聞!AI大佬憤而辭職,代碼實(shí)測(cè)崩盤全網(wǎng)炸鍋
Meta前腳剛發(fā)Llama 4,后腳就有大佬請(qǐng)辭了!
一畝三分地的爆料貼稱,經(jīng)過(guò)反復(fù)訓(xùn)練后,Llama 4未能取得SOTA,甚至與頂尖大模型實(shí)力懸殊。
為了蒙混過(guò)關(guān),高層甚至建議:
在后訓(xùn)練階段中,將多個(gè)benchmark測(cè)試集混入訓(xùn)練數(shù)據(jù)。
在后訓(xùn)練階段中,將多個(gè)benchmark測(cè)試集混入訓(xùn)練數(shù)據(jù)。
最終目的,讓模型短期提升指標(biāo),拿出來(lái)可以看起來(lái)不錯(cuò)的結(jié)果。
這位內(nèi)部員工@dliudliu表示,「自己根本無(wú)法接受這種做法,甚至辭職信中明確要求——不要在Llama 4技術(shù)報(bào)告中掛名」。
另一方面,小扎給全員下了「死令」——4月底是Llama 4交付最后期限。
在一系列高壓之下,已有高管提出了辭職。
其實(shí),Llama 4昨天開源之后,并沒(méi)有在業(yè)內(nèi)得到好評(píng)。全網(wǎng)測(cè)試中,代碼能力極差,實(shí)力不如GPT-4o。
網(wǎng)友Flavio Adamo使用相同的提示詞,分別讓Llama 4 Maveric和GPT-4o制作一個(gè)旋轉(zhuǎn)多邊形的動(dòng)畫。
可以看出,Llama 4 Maveric生成的多邊形并不規(guī)則而且沒(méi)有開口。小球也不符合物理規(guī)律,直接穿過(guò)多邊形掉下去了。
相比之下GPT-4o制作的動(dòng)畫雖然也不完美,但至少要好得多。
甚至,有人直接曝出,Llama 4在LMarena上存在過(guò)擬合現(xiàn)象,有極大的「作弊」嫌疑。
而如今,內(nèi)部員工爆料,進(jìn)一步證實(shí)了網(wǎng)友的猜想。
沃頓商學(xué)院教授Ethan Mollick一語(yǔ)中的,「如果你經(jīng)常使用 AI 模型,不難分辨出哪些是針對(duì)基準(zhǔn)測(cè)試進(jìn)行優(yōu)化的,哪些是真正的重大進(jìn)步」。
不過(guò),另一位內(nèi)部員工稱,并沒(méi)有遇到這類情況,不如讓子彈飛一會(huì)兒。
內(nèi)部員工爆料,Llama 4訓(xùn)練作弊?
幾位AI研究人員在社交媒體上都「吐槽」同一個(gè)問(wèn)題,Meta在其公告中提到LM Arena上的Maverick是一個(gè)「實(shí)驗(yàn)性的聊天版本」。
如果看得仔細(xì)一點(diǎn),在Llama官網(wǎng)的性能對(duì)比測(cè)試圖的最下面一行,寫著「Llama 4 Maverick optimized for conversationality.」
翻譯過(guò)來(lái)就是「針對(duì)對(duì)話優(yōu)化的Llama 4 Maverick」——似乎有些「雞賊」。
這種「區(qū)別對(duì)待」的會(huì)讓開發(fā)人員很難準(zhǔn)確預(yù)測(cè)該模型在特定上下文中的表現(xiàn)。
AI的研究人員觀察到可公開下載的Maverick與LM Arena上托管的模型在行為上存在顯著差異。
而就在今天上午,已經(jīng)有人爆料Llama 4的訓(xùn)練過(guò)程存在嚴(yán)重問(wèn)題!
即Llama 4內(nèi)部訓(xùn)練多次仍然沒(méi)有達(dá)到開源SOTA基準(zhǔn)。
Meta的領(lǐng)導(dǎo)層決定在后訓(xùn)練過(guò)程中混合各種基準(zhǔn)測(cè)試集——讓Llama 4「背題」以期望在測(cè)試中取得「好成績(jī)」。
這個(gè)爆料的原始來(lái)源是「一畝三分地」,根據(jù)對(duì)話,爆料者很可能來(lái)自于Meta公司內(nèi)部。
對(duì)話中提到的Meta AI研究部副總裁Joelle Pineau也申請(qǐng)了5月底辭職。(不過(guò),也有網(wǎng)友稱并非是與Llama4相關(guān))
但是根據(jù)Meta的組織架構(gòu)體系,Pineau是FAIR的副總裁,而FAIR實(shí)際上是Meta內(nèi)部與GenAI完全獨(dú)立的組織,GenAI才是負(fù)責(zé)Llama項(xiàng)目的組織。
GenAI的副總裁是Ahmad Al-Dahle,他并沒(méi)有辭職。
Llama 4才剛剛發(fā)布一天,就出現(xiàn)如此重磅的消息,讓未來(lái)顯得撲朔迷離。
代碼翻車,網(wǎng)友大失所望
在昨天網(wǎng)友的實(shí)測(cè)中,評(píng)論還是有好有壞。
但是過(guò)去一天進(jìn)行更多的測(cè)試后,更多的網(wǎng)友表達(dá)了對(duì)Llama 4的不滿。
在Dr_Karminski的一篇熱帖中,他說(shuō)Llama-4-Maverick——總參數(shù)402B的模型——在編碼能力方面大致只能與 Qwen-QwQ-32B相當(dāng)。
Llama-4-Scout——總參數(shù)109B的模型——大概與Grok-2或Ernie 4.5類似。
在評(píng)論中,網(wǎng)友響應(yīng)了這個(gè)判斷。
有人說(shuō)Llama 4的表現(xiàn)比Gemma 3 27B還要差。
有人認(rèn)為L(zhǎng)lama 4的表現(xiàn)甚至和Llama 3.2一樣沒(méi)有任何進(jìn)步,也無(wú)法完成寫詩(shī)。
其他用戶在測(cè)試后也表達(dá)了同樣的觀點(diǎn),Llama 4有點(diǎn)不符合預(yù)期。
網(wǎng)友Deedy也表達(dá)了對(duì)Llama 4的失望,稱其為「一個(gè)糟糕的編程模型」。
他表示,Scout (109B) 和Maverick (402B)在針對(duì)編程任務(wù)的Kscores基準(zhǔn)測(cè)試中表現(xiàn)不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。
他還給出了貼出了Llama 4兩個(gè)模型的一張測(cè)試排名,結(jié)果顯示這兩個(gè)新發(fā)布的模型遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到頂尖的性能。
網(wǎng)友a(bǔ)nton說(shuō),Llama 4「真的有點(diǎn)令人失望」。
他表示自己不會(huì)用它來(lái)輔助編碼,而Llama 4的定位有點(diǎn)尷尬。
anton認(rèn)為L(zhǎng)lama 4的兩個(gè)模型太大了,不太好本地部署。他建議Meta應(yīng)該推出性能優(yōu)秀的小模型,而不是去追求成為SOTA。
「因?yàn)槟壳八麄兏咀霾坏健!顾麑懙馈?/span>