成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<mark id="ukmdu"></mark>

<mark id="ukmdu"><option id="ukmdu"><label id="ukmdu"></label></option></mark>

<button id="ukmdu"><form id="ukmdu"><label id="ukmdu"></label></form></button>

<span id="ukmdu"><samp id="ukmdu"></samp></span>

<mark id="ukmdu"><option id="ukmdu"></option></mark>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

擊敗GPT-4o的開源模型如何煉成？關于Llama 3.1 405B，Meta都寫在這篇論文里了

作者：機器之心 2024-07-24 13:18:17

人工智能新聞

Meta 公布了《The Llama 3 Herd of Models》論文，揭示了 Llama 3 系列模型迄今為止的研究細節(jié)。

經(jīng)歷了提前兩天的「意外泄露」之后，Llama 3.1 終于在昨夜由官方正式發(fā)布了。

Llama 3.1 將上下文長度擴展到了 128K，擁有 8B、70B 和 405B 三個版本，再次以一已之力抬高了大模型賽道的競爭標準。

對 AI 社區(qū)來說，Llama 3.1 405B 最重要的意義是刷新了開源基礎模型的能力上限，Meta 官方稱，在一系列任務中，其性能可與最好的閉源模型相媲美。

下表展示了當前 Llama 3 系列模型在關鍵基準測試上的性能?？梢钥闯?，405B 模型的性能與 GPT-4o 十分接近。

與此同時，Meta 公布了《The Llama 3 Herd of Models》論文，揭示了 Llama 3 系列模型迄今為止的研究細節(jié)。

論文地址：https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

接下來，讓我們看一下論文內容。

Llama3 論文亮點

1、在使用 8K 上下文長度進行預訓練后，Llama 3.1 405B 使用 128K 上下文長度進行連續(xù)訓練，且支持多語言和工具使用。

2、與以前的 Llama 模型相比，Meta 加強了預處理和預訓練數(shù)據(jù)的 Curation pipelines，以及后訓練數(shù)據(jù)的質量保證和過濾方法。

Meta 認為，高質量基礎模型的開發(fā)有三個關鍵杠桿：數(shù)據(jù)、規(guī)模和復雜性管理。

首先，與 Llama 的早期版本相比，Meta 在數(shù)量和質量兩方面改進了用于預訓練和后訓練的數(shù)據(jù)。Meta 在大約 15 萬億的多語言 Token 語料庫上對 Llama 3 進行了預訓練，相比之下，Llama 2 只使用了 1.8 萬億 Token。

此次訓練的模型規(guī)模遠大于以前的 Llama 模型：旗艦語言模型使用了 3.8 × 102? 次浮點運算（FLOPs）進行預訓練，超過 Llama 2 的最大版本近 50 倍。

基于 Scaling law，在 Meta 的訓練預算下，當前的旗艦模型已是近似計算最優(yōu)的規(guī)模，但 Meta 對較小模型進行的訓練時間已經(jīng)遠超計算最優(yōu)的時長。結果表明，這些較小模型在相同推理預算下的表現(xiàn)優(yōu)于計算最優(yōu)模型。在后訓練階段，Meta 使用了 405B 的旗艦模型進一步提高了 70B 和 8B 模型這些較小模型的質量。

3、為了支持 405B 模型的大規(guī)模生產(chǎn)推理，Meta 將 16 位 (BF16) 量化為 8 位 (FP8)，從而降低了計算要求，并使模型能夠在單個服務器節(jié)點上運行。

4、在 15.6T token（3.8x102? FLOPs）上預訓練 405B 是一項重大挑戰(zhàn)，Meta 優(yōu)化了整個訓練堆棧，并使用了超過 16K H100 GPU。

正如 PyTorch 創(chuàng)始人、Meta 杰出工程師 Soumith Chintala 所說，Llama3 論文揭示了許多很酷的細節(jié)，其中之一就是基礎設施的構建。

5、在后訓練中，Meta 通過多輪對齊來完善 Chat 模型，其中包括監(jiān)督微調（SFT）、拒絕采樣和直接偏好優(yōu)化。大多數(shù) SFT 樣本由合成數(shù)據(jù)生成。

研究者在設計中做出了一些選擇，以最大化模型開發(fā)過程的可擴展性。例如，選擇標準的密集 Transformer 模型架構，只進行了少量調整，而不是采用專家混合模型，以最大限度地提高訓練的穩(wěn)定性。同樣，采用相對簡單的后訓練程序，基于監(jiān)督微調（SFT）、拒絕采樣（RS）和直接偏好優(yōu)化（DPO），而不是更復雜的強化學習算法，因為后者往往穩(wěn)定性較差且更難擴展。

6、作為 Llama 3 開發(fā)過程的一部分，Meta 團隊還開發(fā)了模型的多模態(tài)擴展，使其具備圖像識別、視頻識別和語音理解的能力。這些模型仍在積極開發(fā)中，尚未準備好發(fā)布，但論文展示了對這些多模態(tài)模型進行初步實驗的結果。

7、Meta 更新了許可證，允許開發(fā)者使用 Llama 模型的輸出結果來增強其他模型。

在這篇論文的最后，我們還看到了長長的貢獻者名單：

這一系列因素，最終造就了今天的 Llama 3 系列。

當然，對于普通開發(fā)者來說，如何利用 405B 規(guī)模的模型是一項挑戰(zhàn)，需要大量的計算資源和專業(yè)知識。

發(fā)布之后，Llama 3.1 的生態(tài)系統(tǒng)已準備就緒，超過 25 個合作伙伴提供了可與最新模型搭配使用的服務，包括亞馬遜云科技、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake 等。

更多技術細節(jié)，可參考原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：亚洲视频一区二区三区 | 日韩中文字幕久久 | 一区二区三区欧美 | 91免费在线播放 | 91麻豆产精品久久久久久 | 成人精品视频免费 | 超碰av人人 | 欧美成人激情 | 国产高清在线精品一区二区三区 | 久久久tv| 国产成人亚洲精品 | 成人1区2区 | 欧美日韩国产高清 | 综合久久久 | 日本aa毛片a级毛片免费观看 | 欧美一区中文字幕 | 日本不卡一区二区三区在线观看 | 成人在线小视频 | 一区二区在线不卡 | 国产精品免费看 | 波多野结衣中文字幕一区二区三区 | 国产精品久久久久久久久免费高清 | 国产99久久久国产精品下药 | www.五月婷婷.com | 羞羞的视频免费看 | 精品一区精品二区 | 国产高清在线精品一区二区三区 | 天天躁日日躁aaaa视频 | 欧美精品一区二区三区在线播放 | 日韩成人在线播放 | 精品国产91久久久久久 | 成人免费看片 | 成人深夜福利 | 精品国产乱码久久久久久a丨 | 亚洲视频一区二区三区四区 | 久久手机视频 | 在线看亚洲 | 久久久久久精 | 国产欧美日韩综合精品一区二区 | 亚洲综合成人网 | 伊人99 |

<output id="ehcez"><form id="ehcez"></form></output>

<button id="ehcez"><option id="ehcez"></option></button>

_{<cite id="ehcez"></cite>}

<mark id="ehcez"><option id="ehcez"></option></mark>