Meta放大招!Llama 4三大模型來(lái)襲,開源免費(fèi)還超能打 原創(chuàng) 精華
最近,AI領(lǐng)域又掀起了一陣波瀾!Meta AI一次性推出了三款全新的Llama 4模型,直接把開源AI的“戰(zhàn)火”燒到了新的高度。在這個(gè)大家都忙著堆砌“閉源大模型”的時(shí)代,Meta卻選擇了另一條路:把強(qiáng)大的AI能力免費(fèi)開源,讓每個(gè)人都能用上。今天,咱們就來(lái)好好盤一盤這三款Llama 4模型,看看它們到底有多厲害!
Llama 4家族:各有千秋的“三兄弟”
Meta這次推出的Llama 4家族,包括Scout、Maverick和Behemoth三款模型。這三款模型各有特點(diǎn),從輕量級(jí)部署到企業(yè)級(jí)推理,幾乎涵蓋了所有應(yīng)用場(chǎng)景。最關(guān)鍵的是,Scout和Maverick已經(jīng)對(duì)公眾開放,大家可以免費(fèi)使用!
Llama 4 Scout:小而精,快且強(qiáng)
Scout是Llama 4家族里最“小巧”的一個(gè),但它可一點(diǎn)都不簡(jiǎn)單。這是一款專為輕量級(jí)應(yīng)用設(shè)計(jì)的模型,特別適合那些沒有強(qiáng)大GPU集群的開發(fā)者和研究人員。
- 架構(gòu):Scout采用了“專家混合”(MoE)架構(gòu),總共有16個(gè)專家模塊,每次只激活其中的2個(gè),這樣在推理時(shí)就能保持高效。雖然它的總參數(shù)量有1090億,但實(shí)際激活的參數(shù)只有170億,而且它支持長(zhǎng)達(dá)1000萬(wàn)token的上下文窗口,這在所有開源大模型里都是最長(zhǎng)的。
- 效率:Scout的運(yùn)行效率非常高,只需要一塊H100 GPU,通過(guò)Int4量化就能輕松運(yùn)行。這意味著,即使硬件條件有限,也能享受到高性能的AI服務(wù)。
- 性能:別看Scout“身材小”,它的性能可一點(diǎn)都不弱。在基準(zhǔn)測(cè)試中,Scout輕松超過(guò)了Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1等同級(jí)別模型。
- 訓(xùn)練:Scout的訓(xùn)練過(guò)程也非常“豪華”。它在200種語(yǔ)言上進(jìn)行了預(yù)訓(xùn)練,其中100種語(yǔ)言的數(shù)據(jù)量都超過(guò)10億token。而且,它還支持多達(dá)8張圖片的輸入,能夠處理復(fù)雜的圖像和視頻數(shù)據(jù)。
- 應(yīng)用場(chǎng)景:Scout的長(zhǎng)處在于處理長(zhǎng)文本和圖像推理任務(wù)。比如,它可以用來(lái)開發(fā)長(zhǎng)記憶聊天機(jī)器人、代碼總結(jié)工具、教育問(wèn)答機(jī)器人,甚至還能優(yōu)化移動(dòng)設(shè)備或嵌入式系統(tǒng)上的AI助手。
Llama 4 Maverick:旗艦級(jí)的全能選手
如果Scout是家族里的“小鋼炮”,那么Maverick就是“全能旗艦”。Maverick在推理能力、編碼能力和多模態(tài)應(yīng)用上都表現(xiàn)出色,是Llama 4家族的“門面擔(dān)當(dāng)”。
- 架構(gòu):Maverick同樣采用了MoE架構(gòu),不過(guò)它有128個(gè)路由專家模塊和一個(gè)共享專家模塊。在推理時(shí),它只激活170億參數(shù),總參數(shù)量達(dá)到了4000億。而且,它支持文本和圖像的早期融合輸入,能夠同時(shí)處理多達(dá)8張圖片。
- 效率:Maverick的運(yùn)行效率也非常高,可以在單個(gè)H100 DGX主機(jī)上運(yùn)行,也可以擴(kuò)展到多個(gè)GPU上。這意味著,它既可以滿足單機(jī)用戶的需求,也能適應(yīng)大規(guī)模企業(yè)級(jí)應(yīng)用。
- 性能:Maverick在多個(gè)基準(zhǔn)測(cè)試中都取得了優(yōu)異的成績(jī)。在LMSYS聊天機(jī)器人競(jìng)技場(chǎng)中,它的ELO得分達(dá)到了1417,超過(guò)了GPT-4o和Gemini 2.0 Flash,與DeepSeek v3.1在推理、編碼和多語(yǔ)言能力上不相上下。
- 訓(xùn)練:Maverick的訓(xùn)練過(guò)程更是“黑科技”滿滿。它采用了MetaP超參數(shù)縮放、FP8精度訓(xùn)練等先進(jìn)技術(shù),并且使用了30萬(wàn)億token的數(shù)據(jù)集進(jìn)行訓(xùn)練。這些技術(shù)讓Maverick在圖像理解、多語(yǔ)言推理和成本效率上都超越了Llama 3.3 700億模型。
- 應(yīng)用場(chǎng)景:Maverick的強(qiáng)大能力讓它在多個(gè)領(lǐng)域都能大展身手。比如,它可以用于AI輔助編程、企業(yè)級(jí)文檔理解,甚至還能開發(fā)教育輔導(dǎo)系統(tǒng)。
Llama 4 Behemoth:幕后“導(dǎo)師”
雖然Behemoth是Llama 4家族里最大的一個(gè),但它并不對(duì)外開放。不過(guò),它在訓(xùn)練Scout和Maverick的過(guò)程中發(fā)揮了關(guān)鍵作用。
- 架構(gòu):Behemoth是Meta迄今為止最大的模型,采用了MoE架構(gòu),有16個(gè)專家模塊,在推理時(shí)激活2880億參數(shù),總參數(shù)量接近2萬(wàn)億。它天生就是多模態(tài)的,在推理、數(shù)學(xué)和視覺語(yǔ)言任務(wù)上表現(xiàn)出色。
- 性能:Behemoth在多個(gè)STEM基準(zhǔn)測(cè)試中都超過(guò)了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro,比如MATH-500、GPQA Diamond和BIG-bench等。
- 角色:Behemoth的主要作用是作為“導(dǎo)師”,通過(guò)共蒸餾(co-distillation)的方式指導(dǎo)Scout和Maverick的訓(xùn)練。它引入了一種新的損失函數(shù),動(dòng)態(tài)平衡軟監(jiān)督和硬監(jiān)督目標(biāo),讓Scout和Maverick能夠更好地學(xué)習(xí)。
- 訓(xùn)練:Behemoth的訓(xùn)練過(guò)程更是“硬核”。它采用了FP8精度訓(xùn)練、優(yōu)化的MoE并行化技術(shù),讓訓(xùn)練速度比Llama 3快了10倍。此外,它還引入了新的強(qiáng)化學(xué)習(xí)策略,包括硬提示采樣、多能力批量構(gòu)建和多種系統(tǒng)指令采樣。
如何使用Llama 4模型?
好消息是,現(xiàn)在你已經(jīng)可以通過(guò)多種方式輕松使用Llama 4模型了,無(wú)論你是想做研究、開發(fā)應(yīng)用,還是單純想試試它的能力。
- llama.meta.com:這是Meta官方的Llama模型中心,提供了模型卡片、論文、技術(shù)文檔,以及Scout和Maverick的開源權(quán)重。開發(fā)者可以下載這些模型,然后在本地或云端運(yùn)行。
- Hugging Face:Hugging Face也提供了Llama 4的即用版本。你可以直接在瀏覽器中通過(guò)推理端點(diǎn)測(cè)試這些模型,或者通過(guò)Transformers庫(kù)進(jìn)行部署。此外,它還支持與Gradio和Streamlit等常見工具的集成。
- Meta應(yīng)用:Llama 4模型還為Meta旗下的WhatsApp、Instagram、Messenger和Facebook等應(yīng)用提供了AI助手功能。這意味著,你可以在這些日常應(yīng)用中直接體驗(yàn)Llama 4模型的強(qiáng)大能力。
- 網(wǎng)頁(yè)界面:你也可以直接通過(guò)網(wǎng)頁(yè)界面訪問(wèn)最新的Llama 4模型,測(cè)試它的能力。
Llama 4模型實(shí)戰(zhàn)測(cè)試
說(shuō)了這么多,咱們也來(lái)實(shí)際測(cè)試一下Llama 4模型的能力。雖然Meta目前沒有明確說(shuō)明在應(yīng)用或網(wǎng)頁(yè)界面中使用的是哪一款模型(Scout、Maverick還是Behemoth),但我們可以嘗試一些常見的任務(wù),看看它的表現(xiàn)如何。
任務(wù)1:創(chuàng)意規(guī)劃
提示:“為一個(gè)名為‘Soles’的鞋類品牌創(chuàng)建一個(gè)社交媒體內(nèi)容策略,幫助他們吸引Z世代的用戶。”
輸出:Llama 4模型很快生成了一份詳細(xì)但簡(jiǎn)潔的社交媒體策略。不過(guò),目前在網(wǎng)頁(yè)界面中還不能上傳文件或圖片,而且它也不支持網(wǎng)絡(luò)搜索或畫布功能。
觀察:Llama 4模型的響應(yīng)速度非常快,能夠迅速生成一份有針對(duì)性的策略。
任務(wù)2:代碼生成
提示:“編寫一個(gè)Python程序,展示一個(gè)球在一個(gè)旋轉(zhuǎn)的五邊形內(nèi)彈跳,遵循物理定律,并且每次彈跳后速度都會(huì)增加。”
輸出:生成的代碼存在一些錯(cuò)誤。
觀察:雖然模型能夠快速理解需求,但在代碼生成的準(zhǔn)確性上還有待提高。
任務(wù)3:圖像生成
提示:“生成一張圖片,內(nèi)容是一個(gè)人在筆記本電腦上工作,電腦屏幕上打開的文檔標(biāo)題為‘Llama 4’,拍攝角度要能看到屏幕,桌子上還有一杯咖啡和一盆植物。”
輸出:模型生成了4張圖片,其中一張效果最好。
觀察:Llama 4模型不僅生成了圖片,還提供了“編輯”和“動(dòng)畫”功能。你可以對(duì)圖片進(jìn)行局部修改,甚至還能生成GIF動(dòng)圖。
Llama 4模型的訓(xùn)練與優(yōu)化
Meta在訓(xùn)練Llama 4模型時(shí)采用了結(jié)構(gòu)化的兩步過(guò)程:預(yù)訓(xùn)練和后訓(xùn)練。通過(guò)引入一系列新技術(shù),讓這些模型在性能、可擴(kuò)展性和效率上都得到了顯著提升。
預(yù)訓(xùn)練階段
預(yù)訓(xùn)練是模型知識(shí)和能力的基礎(chǔ)。Meta在這一階段引入了多項(xiàng)創(chuàng)新:
- 多模態(tài)數(shù)據(jù):Llama 4模型在超過(guò)30萬(wàn)億token的多樣化文本、圖像和視頻數(shù)據(jù)集上進(jìn)行了訓(xùn)練。它們天生就是多模態(tài)的,能夠同時(shí)處理語(yǔ)言和視覺信息。
- 專家混合(MoE):在每次推理時(shí),模型只激活一部分參數(shù)。這種選擇性激活讓像Maverick(4000億參數(shù))和Behemoth(近2萬(wàn)億參數(shù))這樣的超大模型能夠更高效地運(yùn)行。
- 早期融合架構(gòu):文本和視覺輸入通過(guò)早期融合進(jìn)行聯(lián)合訓(xùn)練,將兩者整合到同一個(gè)模型框架中。
- MetaP超參數(shù)調(diào)整:這種新技術(shù)讓Meta能夠?yàn)槊恳粚釉O(shè)置學(xué)習(xí)率和初始化規(guī)模,這些參數(shù)可以在不同模型大小和訓(xùn)練配置之間很好地遷移。
- FP8精度:所有模型都采用FP8精度進(jìn)行訓(xùn)練,這在不犧牲模型質(zhì)量的情況下提高了計(jì)算效率。
- iRoPE架構(gòu):這是一種新的方法,使用交錯(cuò)注意力層,不使用位置嵌入,并在推理時(shí)進(jìn)行溫度縮放,幫助Scout更好地處理長(zhǎng)達(dá)1000萬(wàn)token的極長(zhǎng)輸入。
后訓(xùn)練階段
在基礎(chǔ)模型訓(xùn)練完成后,Meta團(tuán)隊(duì)通過(guò)精心設(shè)計(jì)的步驟對(duì)模型進(jìn)行了微調(diào):
- 輕量級(jí)監(jiān)督微調(diào)(SFT):Meta使用Llama模型作為“裁判”,篩選出更復(fù)雜的提示,只用這些更難的樣例來(lái)微調(diào)模型在復(fù)雜推理任務(wù)上的表現(xiàn)。
- 在線強(qiáng)化學(xué)習(xí)(RL):通過(guò)硬提示、自適應(yīng)過(guò)濾和課程設(shè)計(jì),持續(xù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,保持模型在推理、編碼和對(duì)話能力上的優(yōu)勢(shì)。
- 直接偏好優(yōu)化(DPO):在強(qiáng)化學(xué)習(xí)之后,使用輕量級(jí)DPO微調(diào)特定邊緣情況和響應(yīng)質(zhì)量,平衡模型的有用性和安全性。
- Behemoth共蒸餾:Behemoth作為“導(dǎo)師”,為Scout和Maverick生成訓(xùn)練輸出。Meta還引入了一種新的損失函數(shù),動(dòng)態(tài)平衡軟監(jiān)督和硬監(jiān)督目標(biāo)。
通過(guò)這些步驟,Llama 4模型不僅在規(guī)模上龐大,而且在優(yōu)化、安全性以及廣泛任務(wù)上的能力上都得到了顯著提升。
Llama 4模型的基準(zhǔn)測(cè)試表現(xiàn)
Meta為L(zhǎng)lama 4家族的三款模型都提供了詳細(xì)的基準(zhǔn)測(cè)試結(jié)果。這些結(jié)果不僅展示了每款模型根據(jù)其設(shè)計(jì)目標(biāo)和參數(shù)規(guī)模的表現(xiàn),還在一些新引入的、極具挑戰(zhàn)性和全面性的基準(zhǔn)測(cè)試中超過(guò)了領(lǐng)先的模型。
Llama 4 Scout
作為家族中最小的成員,Scout在注重效率的評(píng)估中表現(xiàn)得非常出色:
- ARC(AI2推理挑戰(zhàn)):在常識(shí)推理任務(wù)中,Scout在同規(guī)模模型中表現(xiàn)優(yōu)異。
- MMLU Lite:在歷史、基礎(chǔ)科學(xué)和邏輯推理等任務(wù)上表現(xiàn)穩(wěn)定。
- 推理速度:即使在單個(gè)H100 GPU上,Scout也能以極低的延遲快速響應(yīng)問(wèn)答和聊天機(jī)器人任務(wù)。
- 代碼生成:Scout在簡(jiǎn)單到中級(jí)編程任務(wù)上表現(xiàn)出色,非常適合教育編程助手。
- 針尖麥芒(NiH):在長(zhǎng)達(dá)1000萬(wàn)token的文本或20小時(shí)視頻的長(zhǎng)文本任務(wù)中,Scout能夠以近乎完美的精度檢索信息,展現(xiàn)出無(wú)與倫比的長(zhǎng)期記憶能力。
Llama 4 Maverick
Maverick是為了性能而生,它在各個(gè)方面的表現(xiàn)都非常出色:
- MMLU(多任務(wù)語(yǔ)言理解):在知識(shí)密集型任務(wù)中,Maverick超過(guò)了GPT-4o、Gemini 1.5 Flash和Claude 3 Sonnet。
- HumanEval(代碼生成):在生成功能性代碼和解決算法問(wèn)題方面,Maverick與GPT-4不相上下,甚至在某些情況下表現(xiàn)更好。
- DROP(段落離散推理):Maverick展現(xiàn)了強(qiáng)大的上下文理解和數(shù)值推理能力。
- VQAv2(視覺問(wèn)答):在基于圖像的問(wèn)答任務(wù)中,Maverick表現(xiàn)出色,展現(xiàn)了其卓越的視覺語(yǔ)言能力。
- 針尖麥芒(NiH):在長(zhǎng)達(dá)100萬(wàn)token的長(zhǎng)文檔中,Maverick能夠以近乎完美的精度檢索隱藏信息,即使在極端上下文深度下也只有少數(shù)遺漏。
Llama 4 Behemoth
雖然Behemoth并不對(duì)公眾開放,但它作為Meta最強(qiáng)大的評(píng)估基準(zhǔn),為其他模型的蒸餾和指導(dǎo)發(fā)揮了關(guān)鍵作用:
- 內(nèi)部STEM基準(zhǔn)測(cè)試:在科學(xué)、數(shù)學(xué)和推理方面,Behemoth在Meta內(nèi)部測(cè)試中位居榜首。
- SuperGLUE和BIG-bench:Behemoth在這些測(cè)試中也取得了內(nèi)部最高分,反映了其尖端的語(yǔ)言建模能力。
- 視覺語(yǔ)言整合:在需要結(jié)合文本和圖像理解的任務(wù)中,Behemoth的表現(xiàn)往往超過(guò)了所有已知的公開模型。
這些基準(zhǔn)測(cè)試結(jié)果清楚地展示了每款模型在其角色中的優(yōu)勢(shì):Scout以速度和效率著稱,Maverick在性能和通用任務(wù)上表現(xiàn)出色,而Behemoth則作為研究級(jí)別的“導(dǎo)師”模型,用于蒸餾和評(píng)估。
如何選擇合適的Llama 4模型?
雖然Llama 4家族的三款模型各有特色,但它們也各有適用場(chǎng)景。下面是一個(gè)簡(jiǎn)單的對(duì)比總結(jié),幫助你找到最適合你任務(wù)的Llama 4模型:
模型名稱 | 總參數(shù)量 | 激活參數(shù)量 | 專家模塊數(shù)量 | 上下文長(zhǎng)度 | 運(yùn)行環(huán)境 | 公開訪問(wèn) | 適用場(chǎng)景 |
Scout | 1090億 | 170億 | 16 | 1000萬(wàn)token | 單個(gè)H100 GPU | ? | 輕量級(jí)AI任務(wù)、長(zhǎng)記憶應(yīng)用 |
Maverick | 4000億 | 170億 | 128 | 未列出 | 單個(gè)或多個(gè)GPU | ? | 研究、編碼、企業(yè)級(jí)應(yīng)用 |
Behemoth | 約2萬(wàn)億 | 2880億 | 16 | 未列出 | 內(nèi)部基礎(chǔ)設(shè)施 | ? | 內(nèi)部蒸餾 + 基準(zhǔn)測(cè)試 |
結(jié)語(yǔ)
Llama 4的發(fā)布,不僅僅是Meta的一次技術(shù)突破,更是開源AI領(lǐng)域的一次重大變革。這些模型不僅強(qiáng)大、高效,而且完全開源免費(fèi)。開發(fā)者們?cè)僖膊恍枰揞~預(yù)算就能用上頂尖的AI技術(shù)。從小微企業(yè)到大型企業(yè),從課堂到研究實(shí)驗(yàn)室,Llama 4讓尖端AI技術(shù)觸手可及。在這個(gè)AI飛速發(fā)展的時(shí)代,開源不再是配角,而是未來(lái)的發(fā)展方向。而Meta,正是這個(gè)方向的有力推動(dòng)者!
希望這篇文章能讓你對(duì)Meta的Llama 4模型有更深入的了解!如果你對(duì)這些模型感興趣,不妨親自去試試它們的能力,說(shuō)不定能給你的項(xiàng)目帶來(lái)新的靈感呢!
本文轉(zhuǎn)載自公眾號(hào)Halo咯咯 作者:基咯咯
