成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLaMA 4來了 | 千呼萬喚始出來,猶抱琵琶半遮面 | 不盡如人意 精華

發(fā)布于 2025-4-7 00:04
瀏覽
0收藏

開源世界的期待與漣漪 

人工智能的浪潮奔涌向前,Meta的Llama系列一直扮演著特殊的角色?;叵隠lama 2的橫空出世和開源姿態(tài),極大地降低了高性能大模型的門檻,在全球范圍內(nèi)點(diǎn)燃了研究和應(yīng)用的熱情,催生了無數(shù)創(chuàng)新,其影響力至今仍在激蕩。相較之下,Llama 3的發(fā)布雖然帶來了性能提升,但在社區(qū)看來,似乎少了些 Llama 2那樣的顛覆性震撼,更像是一次穩(wěn)健但略顯保守的迭代。

在這樣的背景下,Llama 4的發(fā)布承載了社區(qū)極高的期待。4月6日大周末的,Llama 4發(fā)布了。然而,在看完Meta的官方博文文章后,我總體感覺是“千呼萬喚始出來,猶抱琵琶半遮面”。那么它帶來了什么?社區(qū)反響如何?它是否達(dá)到了人們的預(yù)期?我們深入看下。

Llama 4 :Meta的宏偉藍(lán)圖 

Meta 的官方博文描繪了一個(gè)名為“Llama 4 牧群”(Llama 4 herd)的宏大計(jì)劃,首批推出了三位成員,旨在開啟“原生多模態(tài) AI 創(chuàng)新”的新紀(jì)元:

LLaMA 4來了 | 千呼萬喚始出來,猶抱琵琶半遮面 | 不盡如人意-AI.x社區(qū)

  1. Llama 4 Scout (偵察兵):
  • 定位: 高效、針對(duì)特定場(chǎng)景優(yōu)化的模型。
  • 參數(shù): 17B (十億) 激活參數(shù),16 個(gè)專家(Experts),總參數(shù) 109B。
  • 亮點(diǎn):
  • 原生多模態(tài): 支持文本、圖像、視頻(幀)輸入。
  • 業(yè)界領(lǐng)先的 10M (千萬) Token 上下文窗口: 這是最引人注目的數(shù)字之一。
  • 高效推理: 據(jù)稱可在單個(gè) NVIDIA H100 GPU 上運(yùn)行(Int4 量化)。
  • 性能: 在同級(jí)別模型中表現(xiàn)優(yōu)異,超越 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
  1. Llama 4 Maverick (特立獨(dú)行者):
  • 定位: 通用、高性能的多模態(tài)模型。
  • 參數(shù): 17B 激活參數(shù),128 個(gè)專家,總參數(shù) 400B。
  • 亮點(diǎn):
  • 原生多模態(tài): 同樣具備強(qiáng)大的多模態(tài)處理能力。
  • 1M (百萬) Token 上下文窗口。
  • 性能: 號(hào)稱在同級(jí)別中擊敗 GPT-4o 和 Gemini 2.0 Flash,并在編碼和推理方面與 DeepSeek v3.1 競(jìng)爭(zhēng)。
  • 成本效益: 對(duì)比 Llama 3.3 70B,以更低成本提供高質(zhì)量輸出。
  1. Llama 4 Behemoth (巨獸):
  • 定位: 最強(qiáng)大的“教師模型”,用于知識(shí)蒸餾。
  • 參數(shù): 288B 激活參數(shù),16 個(gè)專家,總參數(shù)接近2T (兩萬億)!
  • 亮點(diǎn):
  • 頂尖性能: 在 STEM 基準(zhǔn)測(cè)試(如 MATH-500, GPQA Diamond)上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
  • 多模態(tài)能力。
  • 狀態(tài): 預(yù)覽階段,尚未發(fā)布,仍在訓(xùn)練中。

核心技術(shù)看點(diǎn) 

  • 原生多模態(tài) (Native Multimodality):Llama 4 從底層設(shè)計(jì)就考慮了多模態(tài)融合,采用“早期融合”(Early Fusion)策略,將文本和視覺 Token 無縫集成到統(tǒng)一的模型骨干中,支持聯(lián)合預(yù)訓(xùn)練。這與之前模型外掛視覺模塊的方式有所不同。
  • 混合專家模型 (MoE - Mixture of Experts):Scout 和 Maverick 都采用了 MoE 架構(gòu)。這種架構(gòu)在訓(xùn)練和推理時(shí)只激活總參數(shù)的一部分(由“路由器”決定將 Token 發(fā)往哪些“專家”),從而在給定計(jì)算預(yù)算下實(shí)現(xiàn)更高的效率和模型質(zhì)量。Maverick 使用了多達(dá) 128 個(gè)專家,這是一個(gè)相當(dāng)大的規(guī)模。
  • 超長(zhǎng)上下文窗口:Scout 的 10M Token 上下文是其宣傳的重點(diǎn)。Meta 提到這得益于一種名為iRoPE(interleaved Rotary Position Embeddings)的架構(gòu)創(chuàng)新,結(jié)合了交錯(cuò)注意力層和旋轉(zhuǎn)位置編碼,并輔以推理時(shí)注意力溫度縮放(inference time temperature scaling)來增強(qiáng)長(zhǎng)度泛化能力。
  • 訓(xùn)練優(yōu)化:使用 FP8 精度訓(xùn)練以提高效率,訓(xùn)練數(shù)據(jù)量超過 30 萬億 Token(包含文本、圖像、視頻),是 Llama 3 的兩倍以上。還引入了名為 MetaP 的新技術(shù)來優(yōu)化超參數(shù)設(shè)置。
  • 知識(shí)蒸餾:Scout 和 Maverick 的高性能部分歸功于從 Behemoth 模型進(jìn)行的知識(shí)蒸餾(Codistillation),這使得小型模型能夠繼承大型教師模型的“智慧”。

社區(qū)反饋:光環(huán)之下的陰影 

Meta 的發(fā)布引發(fā)了社區(qū)的熱烈討論,但并非一片贊歌:

  • 10M 上下文窗口的“虛幻”:這是被集中火力攻擊的一點(diǎn)。Meta自己的博文明確寫道:“Llama 4 Scout is both pre-trained and post-trained with a256K context length”。這意味著,雖然模型可以通過iRoPE等技術(shù)在推理時(shí)嘗試 處理更長(zhǎng)的上下文(如 Needle-in-a-Haystack 測(cè)試所示),但它并沒有在千萬級(jí)別的真實(shí)長(zhǎng)序列上進(jìn)行過訓(xùn)練。超過256K Token,輸出質(zhì)量很可能大幅下降,因?yàn)槟P腿狈μ幚砣绱碎L(zhǎng)距離復(fù)雜依賴關(guān)系的訓(xùn)練經(jīng)驗(yàn)。這使得 10M 的宣傳數(shù)字更像是一個(gè)理論上限或特定任務(wù)(如信息檢索)的表現(xiàn),而非通用的長(zhǎng)文本理解和生成能力。不少人認(rèn)為這是一種營(yíng)銷上的“取巧”。
    另外,很多模型宣稱支持超長(zhǎng)上下文窗口,并用“大海撈針”實(shí)驗(yàn)來測(cè)試,但技術(shù)上大家普遍認(rèn)為“大海撈針”實(shí)驗(yàn)不能充分驗(yàn)證大模型能夠充分的理解、引用、推理整個(gè)上下文中信息。 ( https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87 )這篇文章設(shè)計(jì)了Fiction.LiveBench長(zhǎng)上下文基準(zhǔn)測(cè)試。從12個(gè)復(fù)雜故事生成測(cè)試集,考查模型對(duì)角色變化、邏輯預(yù)測(cè)及信息區(qū)分的理解。相比“大海撈針”類的搜索測(cè)試,它更注重故事深層理解。
    比如:在《神雕俠侶》小說中,在一個(gè)場(chǎng)景中“楊過被郭芙砍斷一只手臂”,劇情發(fā)展很長(zhǎng)后,有一個(gè)場(chǎng)景是“楊過單臂懷抱小龍女”。這兩個(gè)場(chǎng)景在小說中可能相差很多個(gè)章節(jié),那么如果我們問大模型:楊過為什么單臂懷抱小龍女?能夠很好處理長(zhǎng)下文的大模型應(yīng)該能夠根據(jù)之前很遠(yuǎn)的章節(jié)中的”被砍斷一只手臂”的場(chǎng)景推理出來。 Fiction.LiveBench測(cè)試顯示,就算當(dāng)前第一梯隊(duì)大模型在短上下文(1k)通過,長(zhǎng)上下文(8k)失敗的案例比比皆是【參考下面的表格,可以看到各個(gè)大模型在上下文窗口長(zhǎng)度增長(zhǎng)時(shí),性能在幾句的下降】。所以LLaMA 4宣稱的10M長(zhǎng)下文窗口,可能會(huì)有“虛幻“。LLaMA 4來了 | 千呼萬喚始出來,猶抱琵琶半遮面 | 不盡如人意-AI.x社區(qū)
  • 基準(zhǔn)測(cè)試的意義:“書呆子的占星術(shù)”?Yuchen Jin 的評(píng)論雖帶有戲謔(“Benchmarks? they are just astrology for nerds. Vibes only.”),卻也反映了社區(qū)對(duì)基準(zhǔn)測(cè)試局限性的普遍認(rèn)知。Andriy Burkov 也提到,包括 Elo 評(píng)分在內(nèi)的基準(zhǔn)可以通過微調(diào)來“刷分”,使其看起來接近頂部。實(shí)際應(yīng)用中的表現(xiàn)(“vibe check” 或在用戶自己的問題上測(cè)試)可能與基準(zhǔn)得分存在偏差,尤其是在幻覺(hallucination)等問題上,新模型可能并未比2023年的模型有質(zhì)的飛躍。
  • 推理能力的缺失?Martin Bowling 點(diǎn)出了一個(gè)潛在的短板:Llama 4的發(fā)布似乎并未特別強(qiáng)調(diào)或展示其在復(fù)雜推理 (reasoning)能力上的突破。Burkov甚至稱其為“非推理模型”(non-reasoning model),認(rèn)為即使有 30T 訓(xùn)練數(shù)據(jù)和 2T 參數(shù),也無法讓它超越那些更小的、但具備更強(qiáng)推理能力的模型。Bowling 覺得沒有在這次發(fā)布中加入一個(gè)“推理器”(reasoner)很奇怪,認(rèn)為本可以通過 GRPO 等技術(shù)輕松實(shí)現(xiàn)。

不盡如人意,但仍是重要一步 

綜合來看,Llama 4的發(fā)布是一次復(fù)雜且充滿矛盾的事件。

亮點(diǎn)不容忽視:

  • 它確實(shí)是 Meta 在開源多模態(tài)模型領(lǐng)域邁出的重要一步,原生多模態(tài)架構(gòu)值得肯定。
  • MoE 架構(gòu)的應(yīng)用顯示了Meta在模型效率和規(guī)?;矫娴某掷m(xù)探索。
  • Scout和 Maverick在各自參數(shù)級(jí)別上展現(xiàn)了強(qiáng)大的競(jìng)爭(zhēng)力,為開發(fā)者提供了新的、高性能的開源選擇。
  • 堅(jiān)持開源本身就是對(duì)社區(qū)的巨大貢獻(xiàn)。

失望與疑慮也真實(shí)存在:

  • 10M上下文的宣傳與實(shí)際訓(xùn)練深度之間的差距,可能影響社區(qū)信任。
  • 高達(dá)2T參數(shù)的 Behemoth 未能在綜合能力上展現(xiàn)絕對(duì)統(tǒng)治力,并處于“預(yù)覽”狀態(tài),讓“巨獸”的震撼打了折扣。
  • 在社區(qū)日益關(guān)注的復(fù)雜推理能力上,Llama 4似乎沒有帶來驚喜。
  • 對(duì)基準(zhǔn)測(cè)試的依賴和潛在的“刷分”可能,使得對(duì)其真實(shí)能力的評(píng)估更加困難。

總體來說,Llama 4并沒有完全滿足社區(qū)對(duì)“革命性”突破的期待,它更像是一次雄心勃勃的技術(shù)探索,但部分成果的成熟度和實(shí)用性仍有待檢驗(yàn)。Meta可能確實(shí)在技術(shù)上取得了進(jìn)展,但在溝通和預(yù)期管理上,或許有些操之過急或過于樂觀。

“猶抱琵琶半遮面”的 Behemoth 何時(shí)能完全展露真容?Meta是否會(huì)推出專注于推理的后續(xù)模型?超長(zhǎng)上下文的承諾能否在實(shí)際應(yīng)用中兌現(xiàn)?這些都是 Llama 4留給我們的懸念。

本文轉(zhuǎn)載自???后向傳播???,作者: 張發(fā)恩

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 青草青草久热精品视频在线观看 | 91不卡 | 免费日韩av | 国产精品一区二区视频 | 欧美日韩激情 | 午夜影院普通用户体验区 | 天天看片天天干 | 久久国内精品 | 午夜欧美a级理论片915影院 | 99精品国产在热久久 | 中文字幕免费视频 | 成人美女免费网站视频 | 成人在线免费电影 | 成人欧美一区二区三区黑人孕妇 | 婷婷中文字幕 | 人人干免费 | 亚洲精品精品 | 欧美性a视频 | 国产精品视频综合 | 国产999精品久久久影片官网 | www.日韩免费 | 日本免费一区二区三区四区 | www.中文字幕.com | 国产精品国产三级国产aⅴ浪潮 | 97久久精品午夜一区二区 | 国产视频1 | 久久久久国产精品一区三寸 | 亚洲成人精选 | 国产免费一区 | 日本免费一区二区三区视频 | 免费在线国产视频 | 尤物在线| 欧美精品一区二区三区在线播放 | 欧产日产国产精品视频 | 久久久久国产一区二区三区 | 国产精品亚洲成在人线 | 精品久久九| 精精国产xxxx视频在线 | 亚洲国产成人精品女人久久久 | 日韩成人一区 | 国产欧美精品一区二区三区 |