成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="igucc"><menu id="igucc"></menu></abbr>

<cite id="igucc"><tbody id="igucc"></tbody></cite>

<bdo id="igucc"><tbody id="igucc"></tbody></bdo>

<abbr id="igucc"><menu id="igucc"></menu></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意精華

發(fā)布于 2025-4-7 00:04

瀏覽

0收藏

開源世界的期待與漣漪

人工智能的浪潮奔涌向前，Meta的Llama系列一直扮演著特殊的角色?；叵隠lama 2的橫空出世和開源姿態(tài)，極大地降低了高性能大模型的門檻，在全球范圍內(nèi)點(diǎn)燃了研究和應(yīng)用的熱情，催生了無數(shù)創(chuàng)新，其影響力至今仍在激蕩。相較之下，Llama 3的發(fā)布雖然帶來了性能提升，但在社區(qū)看來，似乎少了些 Llama 2那樣的顛覆性震撼，更像是一次穩(wěn)健但略顯保守的迭代。

在這樣的背景下，Llama 4的發(fā)布承載了社區(qū)極高的期待。4月6日大周末的，Llama 4發(fā)布了。然而，在看完Meta的官方博文文章后，我總體感覺是“千呼萬喚始出來，猶抱琵琶半遮面”。那么它帶來了什么？社區(qū)反響如何？它是否達(dá)到了人們的預(yù)期？我們深入看下。

Llama 4 ：Meta的宏偉藍(lán)圖

Meta 的官方博文描繪了一個(gè)名為“Llama 4 牧群”（Llama 4 herd）的宏大計(jì)劃，首批推出了三位成員，旨在開啟“原生多模態(tài) AI 創(chuàng)新”的新紀(jì)元：

LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意-AI.x社區(qū)

Llama 4 Scout (偵察兵):

定位: 高效、針對(duì)特定場(chǎng)景優(yōu)化的模型。
參數(shù): 17B (十億) 激活參數(shù)，16 個(gè)專家（Experts），總參數(shù) 109B。
亮點(diǎn):

原生多模態(tài): 支持文本、圖像、視頻（幀）輸入。
業(yè)界領(lǐng)先的 10M (千萬) Token 上下文窗口: 這是最引人注目的數(shù)字之一。
高效推理: 據(jù)稱可在單個(gè) NVIDIA H100 GPU 上運(yùn)行（Int4 量化）。
性能: 在同級(jí)別模型中表現(xiàn)優(yōu)異，超越 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

Llama 4 Maverick (特立獨(dú)行者):

定位: 通用、高性能的多模態(tài)模型。
參數(shù): 17B 激活參數(shù)，128 個(gè)專家，總參數(shù) 400B。
亮點(diǎn):

原生多模態(tài): 同樣具備強(qiáng)大的多模態(tài)處理能力。
1M (百萬) Token 上下文窗口。
性能: 號(hào)稱在同級(jí)別中擊敗 GPT-4o 和 Gemini 2.0 Flash，并在編碼和推理方面與 DeepSeek v3.1 競(jìng)爭(zhēng)。
成本效益: 對(duì)比 Llama 3.3 70B，以更低成本提供高質(zhì)量輸出。

Llama 4 Behemoth (巨獸):

定位: 最強(qiáng)大的“教師模型”，用于知識(shí)蒸餾。
參數(shù): 288B 激活參數(shù)，16 個(gè)專家，總參數(shù)接近2T (兩萬億)！
亮點(diǎn):

頂尖性能: 在 STEM 基準(zhǔn)測(cè)試（如 MATH-500, GPQA Diamond）上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
多模態(tài)能力。

狀態(tài): 預(yù)覽階段，尚未發(fā)布，仍在訓(xùn)練中。

核心技術(shù)看點(diǎn)

原生多模態(tài) (Native Multimodality):Llama 4 從底層設(shè)計(jì)就考慮了多模態(tài)融合，采用“早期融合”（Early Fusion）策略，將文本和視覺 Token 無縫集成到統(tǒng)一的模型骨干中，支持聯(lián)合預(yù)訓(xùn)練。這與之前模型外掛視覺模塊的方式有所不同。
混合專家模型 (MoE - Mixture of Experts):Scout 和 Maverick 都采用了 MoE 架構(gòu)。這種架構(gòu)在訓(xùn)練和推理時(shí)只激活總參數(shù)的一部分（由“路由器”決定將 Token 發(fā)往哪些“專家”），從而在給定計(jì)算預(yù)算下實(shí)現(xiàn)更高的效率和模型質(zhì)量。Maverick 使用了多達(dá) 128 個(gè)專家，這是一個(gè)相當(dāng)大的規(guī)模。
超長(zhǎng)上下文窗口:Scout 的 10M Token 上下文是其宣傳的重點(diǎn)。Meta 提到這得益于一種名為iRoPE（interleaved Rotary Position Embeddings）的架構(gòu)創(chuàng)新，結(jié)合了交錯(cuò)注意力層和旋轉(zhuǎn)位置編碼，并輔以推理時(shí)注意力溫度縮放（inference time temperature scaling）來增強(qiáng)長(zhǎng)度泛化能力。
訓(xùn)練優(yōu)化:使用 FP8 精度訓(xùn)練以提高效率，訓(xùn)練數(shù)據(jù)量超過 30 萬億 Token（包含文本、圖像、視頻），是 Llama 3 的兩倍以上。還引入了名為 MetaP 的新技術(shù)來優(yōu)化超參數(shù)設(shè)置。
知識(shí)蒸餾:Scout 和 Maverick 的高性能部分歸功于從 Behemoth 模型進(jìn)行的知識(shí)蒸餾（Codistillation），這使得小型模型能夠繼承大型教師模型的“智慧”。

社區(qū)反饋：光環(huán)之下的陰影

Meta 的發(fā)布引發(fā)了社區(qū)的熱烈討論，但并非一片贊歌：

10M 上下文窗口的“虛幻”：這是被集中火力攻擊的一點(diǎn)。Meta自己的博文明確寫道：“Llama 4 Scout is both pre-trained and post-trained with a256K context length”。這意味著，雖然模型可以通過iRoPE等技術(shù)在推理時(shí)嘗試處理更長(zhǎng)的上下文（如 Needle-in-a-Haystack 測(cè)試所示），但它并沒有在千萬級(jí)別的真實(shí)長(zhǎng)序列上進(jìn)行過訓(xùn)練。超過256K Token，輸出質(zhì)量很可能大幅下降，因?yàn)槟Ｐ腿狈μ幚砣绱碎L(zhǎng)距離復(fù)雜依賴關(guān)系的訓(xùn)練經(jīng)驗(yàn)。這使得 10M 的宣傳數(shù)字更像是一個(gè)理論上限或特定任務(wù)（如信息檢索）的表現(xiàn)，而非通用的長(zhǎng)文本理解和生成能力。不少人認(rèn)為這是一種營(yíng)銷上的“取巧”。
另外，很多模型宣稱支持超長(zhǎng)上下文窗口，并用“大海撈針”實(shí)驗(yàn)來測(cè)試，但技術(shù)上大家普遍認(rèn)為“大海撈針”實(shí)驗(yàn)不能充分驗(yàn)證大模型能夠充分的理解、引用、推理整個(gè)上下文中信息。（ https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87 ）這篇文章設(shè)計(jì)了Fiction.LiveBench長(zhǎng)上下文基準(zhǔn)測(cè)試。從12個(gè)復(fù)雜故事生成測(cè)試集，考查模型對(duì)角色變化、邏輯預(yù)測(cè)及信息區(qū)分的理解。相比“大海撈針”類的搜索測(cè)試，它更注重故事深層理解。
比如：在《神雕俠侶》小說中，在一個(gè)場(chǎng)景中“楊過被郭芙砍斷一只手臂”，劇情發(fā)展很長(zhǎng)后，有一個(gè)場(chǎng)景是“楊過單臂懷抱小龍女”。這兩個(gè)場(chǎng)景在小說中可能相差很多個(gè)章節(jié)，那么如果我們問大模型：楊過為什么單臂懷抱小龍女？能夠很好處理長(zhǎng)下文的大模型應(yīng)該能夠根據(jù)之前很遠(yuǎn)的章節(jié)中的”被砍斷一只手臂”的場(chǎng)景推理出來。 Fiction.LiveBench測(cè)試顯示，就算當(dāng)前第一梯隊(duì)大模型在短上下文（1k）通過，長(zhǎng)上下文（8k）失敗的案例比比皆是【參考下面的表格，可以看到各個(gè)大模型在上下文窗口長(zhǎng)度增長(zhǎng)時(shí)，性能在幾句的下降】。所以LLaMA 4宣稱的10M長(zhǎng)下文窗口，可能會(huì)有“虛幻“。
基準(zhǔn)測(cè)試的意義：“書呆子的占星術(shù)”？Yuchen Jin 的評(píng)論雖帶有戲謔（“Benchmarks? they are just astrology for nerds. Vibes only.”），卻也反映了社區(qū)對(duì)基準(zhǔn)測(cè)試局限性的普遍認(rèn)知。Andriy Burkov 也提到，包括 Elo 評(píng)分在內(nèi)的基準(zhǔn)可以通過微調(diào)來“刷分”，使其看起來接近頂部。實(shí)際應(yīng)用中的表現(xiàn)（“vibe check” 或在用戶自己的問題上測(cè)試）可能與基準(zhǔn)得分存在偏差，尤其是在幻覺（hallucination）等問題上，新模型可能并未比2023年的模型有質(zhì)的飛躍。
推理能力的缺失？Martin Bowling 點(diǎn)出了一個(gè)潛在的短板：Llama 4的發(fā)布似乎并未特別強(qiáng)調(diào)或展示其在復(fù)雜推理 (reasoning)能力上的突破。Burkov甚至稱其為“非推理模型”（non-reasoning model），認(rèn)為即使有 30T 訓(xùn)練數(shù)據(jù)和 2T 參數(shù)，也無法讓它超越那些更小的、但具備更強(qiáng)推理能力的模型。Bowling 覺得沒有在這次發(fā)布中加入一個(gè)“推理器”（reasoner）很奇怪，認(rèn)為本可以通過 GRPO 等技術(shù)輕松實(shí)現(xiàn)。

不盡如人意，但仍是重要一步

綜合來看，Llama 4的發(fā)布是一次復(fù)雜且充滿矛盾的事件。

亮點(diǎn)不容忽視：

它確實(shí)是 Meta 在開源多模態(tài)模型領(lǐng)域邁出的重要一步，原生多模態(tài)架構(gòu)值得肯定。
MoE 架構(gòu)的應(yīng)用顯示了Meta在模型效率和規(guī)?；矫娴某掷m(xù)探索。
Scout和 Maverick在各自參數(shù)級(jí)別上展現(xiàn)了強(qiáng)大的競(jìng)爭(zhēng)力，為開發(fā)者提供了新的、高性能的開源選擇。
堅(jiān)持開源本身就是對(duì)社區(qū)的巨大貢獻(xiàn)。

失望與疑慮也真實(shí)存在：

10M上下文的宣傳與實(shí)際訓(xùn)練深度之間的差距，可能影響社區(qū)信任。
高達(dá)2T參數(shù)的 Behemoth 未能在綜合能力上展現(xiàn)絕對(duì)統(tǒng)治力，并處于“預(yù)覽”狀態(tài)，讓“巨獸”的震撼打了折扣。
在社區(qū)日益關(guān)注的復(fù)雜推理能力上，Llama 4似乎沒有帶來驚喜。
對(duì)基準(zhǔn)測(cè)試的依賴和潛在的“刷分”可能，使得對(duì)其真實(shí)能力的評(píng)估更加困難。

總體來說，Llama 4并沒有完全滿足社區(qū)對(duì)“革命性”突破的期待，它更像是一次雄心勃勃的技術(shù)探索，但部分成果的成熟度和實(shí)用性仍有待檢驗(yàn)。Meta可能確實(shí)在技術(shù)上取得了進(jìn)展，但在溝通和預(yù)期管理上，或許有些操之過急或過于樂觀。

“猶抱琵琶半遮面”的 Behemoth 何時(shí)能完全展露真容？Meta是否會(huì)推出專注于推理的后續(xù)模型？超長(zhǎng)上下文的承諾能否在實(shí)際應(yīng)用中兌現(xiàn)？這些都是 Llama 4留給我們的懸念。

本文轉(zhuǎn)載自???后向傳播???，作者：張發(fā)恩

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

音樂ChatGPT 2.0來了！AI作曲家被踢館，親測(cè)周杰倫爆款大翻車

duhorse ? 2979瀏覽 ? 0回復(fù)
Llama 3來了！首批開源 8B 和 70B兩個(gè)版本，未來有望開源400B大模型！

AIGC最前線 ? 1.2w瀏覽 ? 0回復(fù)
牽手GPT-4o后能力簡(jiǎn)直王炸！奧特曼也來build現(xiàn)場(chǎng)了！

51CTO技術(shù)棧 ? 3135瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

戀戀青鳥 ? 3711瀏覽 ? 0回復(fù)
原作者帶隊(duì)的Mamba 2來了，新架構(gòu)訓(xùn)練效率大幅提升

輕薄滴假象 ? 2884瀏覽 ? 0回復(fù)
萬引大神: 機(jī)器學(xué)習(xí)不存在了

ceesoft ? 3189瀏覽 ? 0回復(fù)
Meta正式發(fā)布Llama-3.1，超大杯405B！千呼萬喚始出來！

PaperAgent ? 3386瀏覽 ? 0回復(fù)
沒有等來Qwen2.5，但等來了Qwen2-Math

NLP工作站 ? 2696瀏覽 ? 0回復(fù)
Llama-4使用10萬塊GPU訓(xùn)練、更好開源，扎克伯格親口確認(rèn)！

Aceryt ? 3703瀏覽 ? 0回復(fù)
Agent遇上4萬個(gè)工具？一個(gè)Token搞定！

探索AGI ? 2528瀏覽 ? 0回復(fù)
小模型界o1來了：微軟推出Phi-4，數(shù)學(xué)推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個(gè)重要推斷

51CTO技術(shù)棧 ? 2521瀏覽 ? 0回復(fù)
o3來了！AGI測(cè)試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天

51CTO技術(shù)棧 ? 3412瀏覽 ? 0回復(fù)
Claude 4被曝發(fā)布在即！DeepSeek把大招都給逼出來了

Crystalcxt ? 2023瀏覽 ? 0回復(fù)
純研究O1的論文都發(fā)出來了，讓我想起來研究紅樓夢(mèng)的紅學(xué)

熵減AI ? 1867瀏覽 ? 0回復(fù)
太強(qiáng)大了！又一個(gè)國(guó)產(chǎn)AI出來了！

數(shù)師兄 ? 5074瀏覽 ? 0回復(fù)
超過DeepSeek、o3，雙思維模型Claude 3.7來了

Aceryt ? 2146瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強(qiáng)MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1818瀏覽 ? 0回復(fù)
Llama4 模型細(xì)節(jié) & 效果實(shí)測(cè)

NLP工作站 ? 1717瀏覽 ? 0回復(fù)
llama 4，開源！

NLP前沿1 ? 1586瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

開局一把牌，怎么都能打 | 神經(jīng)網(wǎng)絡(luò)從“白癡”訓(xùn)練到“專家”水平，其參數(shù)并沒有太大的變化 2025-06-23 07:28:16發(fā)布
聊聊背后的技術(shù) | AI+生物 | 突破進(jìn)展，世界上首次開發(fā)出“為一人定制”的CRISPR基因編輯體內(nèi)治療藥物 2025-06-10 06:59:33發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： Muon優(yōu)化器：AI模型訓(xùn)練算法的下一個(gè)里程碑？| 目前還不是業(yè)界焦點(diǎn)，但有潛力是重大基礎(chǔ)創(chuàng)新

下一篇： GRPO教會(huì)DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡(jiǎn)化之，消除偏見帶來改進(jìn)

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：青草青草久热精品视频在线观看 | 91不卡 | 免费日韩av | 国产精品一区二区视频 | 欧美日韩激情 | 午夜影院普通用户体验区 | 天天看片天天干 | 久久国内精品 | 午夜欧美a级理论片915影院 | 99精品国产在热久久 | 中文字幕免费视频 | 成人美女免费网站视频 | 成人在线免费电影 | 成人欧美一区二区三区黑人孕妇 | 婷婷中文字幕 | 人人干免费 | 亚洲精品精品 | 欧美性a视频 | 国产精品视频综合 | 国产999精品久久久影片官网 | www.日韩免费 | 日本免费一区二区三区四区 | www.中文字幕.com | 国产精品国产三级国产aⅴ浪潮 | 97久久精品午夜一区二区 | 国产视频1 | 久久久久国产精品一区三寸 | 亚洲成人精选 | 国产免费一区 | 日本免费一区二区三区视频 | 免费在线国产视频 | 尤物在线| 欧美精品一区二区三区在线播放 | 欧产日产国产精品视频 | 久久久久国产一区二区三区 | 国产精品亚洲成在人线 | 精品久久九| 精精国产xxxx视频在线 | 亚洲国产成人精品女人久久久 | 日韩成人一区 | 国产欧美精品一区二区三区 |

<bdo id="k66o8"><tbody id="k66o8"></tbody></bdo>

<abbr id="k66o8"><menu id="k66o8"></menu></abbr>