成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

直播首秀 AI大模型的存儲(chǔ)之道 原創(chuàng)

發(fā)布于 2024-6-21 14:38
瀏覽
0收藏

AIGC 在 2023 年爆火,各類大模型層出不窮,參數(shù)動(dòng)輒達(dá)到千億數(shù)量級。這些背后,數(shù)據(jù)的類型和形式也走向復(fù)雜多樣。例如大模型會(huì)采用到我們真實(shí)物理世界中的文字、視覺、音頻、3D、雷達(dá)、多譜等復(fù)雜多樣的不同模態(tài)信號和數(shù)據(jù),數(shù)據(jù)則又存在結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多種形式。

在大模型發(fā)展的初期:GPU很貴,相比之下存儲(chǔ)的成本忽略不計(jì),可以直接選性能最好最貴的存儲(chǔ)方案。典型的高性能文件系統(tǒng)有GPFS、Lustre、Weka,以及其他高性能NAS 等。這些系統(tǒng)通常依賴全閃存(NVMe) 和高性能網(wǎng)絡(luò)提供極致性能。

但是隨著算力、數(shù)據(jù)與團(tuán)隊(duì)投入都增大的時(shí)候,又發(fā)現(xiàn)新的問題:在預(yù)訓(xùn)練階段,會(huì)產(chǎn)生更多實(shí)驗(yàn)結(jié)果和中間數(shù)據(jù),加上各種模型的checkpoint 和日志數(shù)據(jù),預(yù)訓(xùn)練環(huán)節(jié)總數(shù)據(jù)量預(yù)計(jì)將達(dá)到10PB 到 100PB。正式訓(xùn)練環(huán)節(jié),雖然企業(yè)可以將全部數(shù)據(jù)存儲(chǔ)于高性能存儲(chǔ)系統(tǒng)中,但是,高性能文件系統(tǒng)的性能都與容量是關(guān)聯(lián)的。如果要達(dá)到訓(xùn)練所需的I/O 性能,需要擴(kuò)大高性能文件系統(tǒng)容量。

直播首秀 AI大模型的存儲(chǔ)之道 -AI.x社區(qū)

大模型背景下,“存力”成為關(guān)鍵基礎(chǔ)設(shè)施能力。2023年10月,工業(yè)和信息化部等6部門聯(lián)合印發(fā)了《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,明確提出到2025年存儲(chǔ)總量超過 180EB 、先進(jìn)存儲(chǔ)容量占比達(dá)30% 以上的目標(biāo)。先進(jìn)存儲(chǔ)是指應(yīng)用全閃存陣列、SSD 等先進(jìn)存儲(chǔ)部件,采用存算分離、高密等先進(jìn)技術(shù),單位容量數(shù)據(jù)操作能力達(dá)到萬 IOPS(每秒讀寫次數(shù))以上的存儲(chǔ)模塊。

下圖展示了根據(jù)算法性能需求和所用硬件條件選擇最合適的存儲(chǔ)技術(shù)的流程。在實(shí)際訓(xùn)練過程中,可能會(huì)混合采用多種不同的存儲(chǔ)技術(shù)。例如,在GPU集群中,通過高帶寬的NVLink互聯(lián)的GPU組使用基于層內(nèi)并行的分布式顯存管理技術(shù);通過帶寬較低的PCIe互聯(lián)的GPU組使用流水線并行的方式。

直播首秀 AI大模型的存儲(chǔ)之道 -AI.x社區(qū)

大模型場景對于存力有著高吞吐、高IOPS、高帶寬、低延時(shí)的極致性能要求。尤其是大模型訓(xùn)練環(huán)節(jié),其數(shù)據(jù)量大、參數(shù)規(guī)模大、訓(xùn)練周期長、投資規(guī)模大等特點(diǎn)是傳統(tǒng)AI場景所不具備的,因此為傳統(tǒng)AI場景而構(gòu)建的基于開源技術(shù)或商業(yè)化產(chǎn)品的存力難以滿足性能需求。那什么樣的存儲(chǔ)架構(gòu)才是AI大模型時(shí)代的最佳選擇呢?

直播首秀 AI大模型的存儲(chǔ)之道 -AI.x社區(qū)

首先,可以指定數(shù)據(jù)首次寫入時(shí)的放置策略,例如在數(shù)據(jù)獲取階段,新獲取的數(shù)據(jù)需要在短時(shí)間內(nèi)處理的,可以直接放置到高性能層;而新獲取的數(shù)據(jù)在短時(shí)間內(nèi)無需處理的或用來長期歸檔的數(shù)據(jù),則可以直接寫入容量層;其次,可以設(shè)置豐富的數(shù)據(jù)分級流動(dòng)策略,例如可以設(shè)置訪問頻度與時(shí)間相結(jié)合的流動(dòng)策略,也可以設(shè)置容量水位觸發(fā)的流動(dòng)策略;再者,根據(jù)用戶制定的分級策略,數(shù)據(jù)能夠在高性能層和大容量層之間自動(dòng)分級流動(dòng),數(shù)據(jù)分級遷移過程對業(yè)務(wù)應(yīng)用完全透明;最后,對于已經(jīng)分級到容量層的數(shù)據(jù),用戶可以通過命令或API對指定的數(shù)據(jù)集配置預(yù)熱策略,以加速計(jì)劃性任務(wù)的冷啟動(dòng)速度。

大模型訓(xùn)練中的檢查點(diǎn)Checkpoint

直播首秀 AI大模型的存儲(chǔ)之道 -AI.x社區(qū)

GPU 故障數(shù)量隨著 GPU 集群規(guī)模的增大而提高。GPU 的頻繁故障一方面會(huì)導(dǎo)致訓(xùn)練得到的參數(shù)丟失;另一方由于大模型訓(xùn)練中各 GPU 間的數(shù)據(jù)存在依賴關(guān)系,單 GPU 的故障會(huì)擴(kuò)散到整個(gè) GPU 集群中,有 2 類主要的工作解決大模型訓(xùn)練故障的問題:參數(shù)檢查點(diǎn)和冗余計(jì)算。

參數(shù)檢查點(diǎn)技術(shù)以設(shè)定的頻率,將訓(xùn)練得到的參數(shù)信息存儲(chǔ)到持久化的存儲(chǔ)介質(zhì)中,以對 GPU 故障進(jìn)行容錯(cuò)。在 GPU 故障后,參數(shù)檢查點(diǎn)技術(shù)利用最新且完整的參數(shù)進(jìn)行恢復(fù)。參數(shù)檢查點(diǎn)技術(shù)需要大容量的持久化存儲(chǔ)設(shè)備以保存檢查點(diǎn)信息。并且在恢復(fù)階段,參數(shù)檢查點(diǎn)需要從持久化介質(zhì)中讀取之前版本的參數(shù),這導(dǎo)致恢復(fù)開銷高,利用冗余計(jì)算的方式,在多張 GPU 中重復(fù)計(jì)算相同版本的參數(shù),以對模型訓(xùn)練數(shù)據(jù)容錯(cuò)。在這個(gè)過程中,存儲(chǔ)要能在AI訓(xùn)練每個(gè)epoch的shuffle階段,提供高效的億級文件列表獲取能力;要能支撐住在上億訓(xùn)練集文件上,通過為每個(gè)文件頻繁創(chuàng)建新的硬鏈接,以實(shí)現(xiàn)訓(xùn)練集的版本管理能力。

數(shù)據(jù)總量和數(shù)據(jù)質(zhì)量決定了AI大模型的高度,數(shù)據(jù)準(zhǔn)備效率和數(shù)據(jù)在全流程間的流轉(zhuǎn)效率將成為影響AI大模型端到端生產(chǎn)成本的核心要素。選擇一套可以滿足AI大模型快速發(fā)展的存儲(chǔ)系統(tǒng),對于提升大模型生產(chǎn)效率、降低大模型TCO至關(guān)重要。

大模型訓(xùn)練場景的基礎(chǔ)設(shè)施,618直播間討論。

Q1:說起AI大模型,我們首先聯(lián)想到的是GPU,算力,英偉達(dá)。有這些就夠了嗎?

A1:顯然不是,英偉達(dá)股價(jià)一路上漲,確實(shí)會(huì)讓人有個(gè)錯(cuò)覺,AI就是GPU,其實(shí)不是,網(wǎng)上有句戲言:挖金子的AI還在虧,賣鏟子卻賺翻了。如果把數(shù)據(jù)當(dāng)成一個(gè)礦藏,GPU好比挖礦的鏟子一樣。大模型訓(xùn)練除了需要GPU算力,存力也是AI大模型的重要保障,主要基于以下幾個(gè)因素。

1,先說參數(shù)。ChatGPT 3.5發(fā)布的時(shí)候1750億參數(shù),火星人埃隆馬斯克發(fā)布的Grok-1是3140 億參數(shù),源文件200G,運(yùn)行起來就得700G顯存。未來大模型參數(shù)千億級別奔向萬億參數(shù);

直播首秀 AI大模型的存儲(chǔ)之道 -AI.x社區(qū)

2,再說數(shù)據(jù)集。大模型已從單模態(tài)走向多模態(tài),將來還會(huì)走向全模態(tài);用于訓(xùn)練的數(shù)據(jù)集從3TB,增長到多模態(tài)40TB,未來全模態(tài)將會(huì)達(dá)到PB級數(shù)據(jù);

3,對算力需求的增長速度大幅超越單GPU卡算力的增長速度,大模型訓(xùn)練集群的規(guī)模會(huì)變得越來越大,這樣才能保證大模型的涌現(xiàn)能力;模型訓(xùn)練checkpoint數(shù)據(jù)量也從十幾GB增長到幾百個(gè)GB,檢查點(diǎn)保存和恢復(fù)進(jìn)度與模型大小成正比,更高頻度的CheckPoint給存儲(chǔ)帶來巨大寫入帶寬挑戰(zhàn)。

Q2:你剛才說到一個(gè)詞,涌現(xiàn)能力這個(gè)詞怎么理解?

A2:涌現(xiàn) 字面理解,厚積薄發(fā)。什么是“涌現(xiàn)現(xiàn)象”?當(dāng)一個(gè)復(fù)雜系統(tǒng)由很多微小個(gè)體構(gòu)成,這些微小個(gè)體湊到一起,相互作用,當(dāng)數(shù)量足夠多時(shí),在宏觀層面上展現(xiàn)出現(xiàn)象,就可以稱之為“涌現(xiàn)現(xiàn)象”。在日常生活中也有一些涌現(xiàn),譬如雪花,雪花的構(gòu)成是水分子,水分子很小,但是大量的水分子如果在外界溫度條件變化的前提下,相互作用,在宏觀層面就會(huì)形成一個(gè)很規(guī)律、很對稱、很美麗的雪花。

在AI大模型訓(xùn)練過程中,人工智能模型有時(shí),似乎會(huì)突然「理解」一個(gè)問題,盡管它們只是記住了訓(xùn)練數(shù)據(jù)。這個(gè)突然轉(zhuǎn)變的過程,有個(gè)形象的說法叫頓悟,大模型突然從簡單地復(fù)制訓(xùn)練數(shù)據(jù),轉(zhuǎn)變?yōu)榘l(fā)現(xiàn)可推廣的解決方案。

直播首秀 AI大模型的存儲(chǔ)之道 -AI.x社區(qū)

AI大模型擁有更強(qiáng)的涌現(xiàn)能力,才會(huì)擁有更精準(zhǔn)的語言理解和推理能力。當(dāng)然,這里有一個(gè)重要的前提是,足夠多數(shù)據(jù)集對大模型進(jìn)行高效訓(xùn)練和存儲(chǔ)調(diào)度。否則的話,就算是有愛因斯坦的大腦,不識(shí)字不讀書,那也很難進(jìn)行創(chuàng)造性的思考。

Q3:那也就說,不管你有多少GPU,但沒有足夠多的數(shù)據(jù)集訓(xùn)練和存儲(chǔ)調(diào)度,也是無法頓悟?

A3:是的,頓悟是模型涌向能力的形象說法,該能力無處不在,只要摸清條件,做好AI全流程的數(shù)據(jù)存儲(chǔ)和資源調(diào)度,大模型就會(huì)頓悟,只是早晚的事。

AI全流程包括數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練與評估、模型部署應(yīng)用這四個(gè)階段,每個(gè)階段都涉及海量數(shù)據(jù)的存儲(chǔ)與訪問。大模型的存儲(chǔ)系統(tǒng)應(yīng)該是什么樣子呢?

這套存儲(chǔ)系統(tǒng)需要同時(shí)具備高性能層和大容量層,并對外呈現(xiàn)統(tǒng)一的命名空間,具備數(shù)據(jù)全生命周期管理的能力。同時(shí),這套存儲(chǔ)還得可以承載AI全流程業(yè)務(wù),支持NAS、大數(shù)據(jù)、對象、并行客戶端等多種訪問傳輸協(xié)議。而且呢,這套存儲(chǔ)還得具備數(shù)千節(jié)點(diǎn)的橫向擴(kuò)展能力,隨著存儲(chǔ)節(jié)點(diǎn)數(shù)的增加,系統(tǒng)帶寬和元數(shù)據(jù)訪問能力可實(shí)現(xiàn)線性增長。這些需求,傳統(tǒng)的存儲(chǔ),無論是集中式還是分布式,都是無法有效滿足大模型訓(xùn)練的特殊應(yīng)用場景。

Q4:在大模型場景中,京東云海是否具備以上特點(diǎn)?

A4:京東云海是京東云的存儲(chǔ)底座,利用完全自研的統(tǒng)一存儲(chǔ)引擎,提供塊文件 對象 并行 分布式 大數(shù)據(jù)等五種協(xié)議訪問,所有需要高效處理的數(shù)據(jù) 均在高性能存儲(chǔ)層完成,AI全流程各階段協(xié)同時(shí),不再需要頻繁遷移數(shù)據(jù)。

直播首秀 AI大模型的存儲(chǔ)之道 -AI.x社區(qū)

京東云海可以大幅提升AI大數(shù)據(jù)訓(xùn)練數(shù)據(jù)準(zhǔn)備效率,提高AI計(jì)算集群的GPU利用率,顯著降低算力投資成本 和數(shù)據(jù)預(yù)處理成本,大大縮短AI大模型開發(fā)的周期。生產(chǎn)一個(gè)千億級參數(shù)的大模型端到端TCO總體擁有成本可以降低10%以上。

Q5:如此說來,京東云海確實(shí)是一款大模型訓(xùn)練必備產(chǎn)品,怎么才能稱得上好呢?

A5:京東云海一套系統(tǒng)、一套參數(shù)具備高性能動(dòng)態(tài)混合負(fù)載的承載能力。這該怎么理解呢?

在數(shù)據(jù)導(dǎo)入階段,大小文件同時(shí)寫入;在數(shù)據(jù)預(yù)處理階段,大小文件批量讀取處理后生成海量小文件;在模型訓(xùn)練階段,海量小文件批量隨機(jī)讀取;在生成CheckPoint時(shí),要能滿足大高帶寬寫入;在模型部署階段,即使大并發(fā)讀取同一個(gè)模型文件,隨著部署設(shè)備數(shù)量的增加,集群聚合吞吐帶寬仍然可以線性增長。譬如,千億級大模型產(chǎn)生的模型文件有 400 GB 左右,向業(yè)務(wù)推送時(shí),需要并發(fā)分發(fā)到前端數(shù)千個(gè)業(yè)務(wù)實(shí)例上。分發(fā)過程涉及 數(shù)百TB數(shù)據(jù)的讀取,因此需要高并發(fā)大帶寬讀取分發(fā)能力。

再說到一款好的產(chǎn)品是怎么樣的?必然是成本更低 性能更優(yōu)和穩(wěn)定可靠三項(xiàng)特征的集合,而京東云海,就是這三者合一的最佳之選。還有很關(guān)鍵的一點(diǎn)是,交付方式十分靈活,可以是通過純軟件授權(quán),軟硬件一體機(jī)和系統(tǒng)集成的方式交付。

截止目前除了互聯(lián)網(wǎng)電商場景外,在一些大的算力中心,銀行證券醫(yī)療等行業(yè)已有落地案例。


本文轉(zhuǎn)載自公眾號數(shù)字化助推器  作者:天涯咫尺TGH

原文鏈接:??https://mp.weixin.qq.com/s/OeKlgw_mOZTIkb6rxBDFIw??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品综合色区在线观看 | 国产精品久久久久久婷婷天堂 | 欧美综合在线视频 | 亚洲不卡在线观看 | 国产免费视频在线 | 日韩高清成人 | 亚洲永久免费观看 | 国产乱码精品一区二区三区忘忧草 | 在线精品一区二区三区 | 成人妇女免费播放久久久 | 欧美日韩电影一区 | 91麻豆精品国产91久久久久久 | 亚洲国产成人精品久久 | 久久亚洲欧美日韩精品专区 | 欧美日韩综合一区 | 成人免费小视频 | 夜夜爽99久久国产综合精品女不卡 | 国产精品视频不卡 | 色又黄又爽网站www久久 | 精品国产免费人成在线观看 | 亚洲成人精品一区 | 91在线一区| 成人在线观看中文字幕 | 韩国成人在线视频 | 91在线视频| 黄色免费av | 性色综合 | 妖精视频一区二区三区 | 久久精品—区二区三区 | 成人免费在线观看 | 污片在线观看 | 日本不卡一区 | 精品久久久久久久久久久久 | 久久精品久久久久久 | 亚洲三区视频 | 国产在线精品一区二区 | h在线 | av片毛片| 午夜精品久久久久久久 | 色综合网站 | 四虎成人av|