瘦身不降智!大模型訓(xùn)推效率提升30%,京東大模型開(kāi)發(fā)計(jì)算研究登Nature旗下期刊
京東探索研究院關(guān)于大模型的最新研究,登上了Nature旗下期刊!
該項(xiàng)研究提出了一種在開(kāi)放環(huán)境場(chǎng)景中訓(xùn)練、更新大模型,并與小模型協(xié)同部署的系統(tǒng)與方法。
它通過(guò)模型蒸餾、數(shù)據(jù)治理、訓(xùn)練優(yōu)化與云邊協(xié)同四大創(chuàng)新,這個(gè)項(xiàng)目將大模型推理效率平均提升30%,訓(xùn)練成本降低70%。
這個(gè)名為《Omniforce:以人為中心的、賦能大模型的、云邊協(xié)同的自動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)》的項(xiàng)目,發(fā)表在Nature旗下期刊npj Artificial Intelligence上。
據(jù)介紹,這是國(guó)內(nèi)首個(gè)系統(tǒng)性解決開(kāi)放環(huán)境下大模型開(kāi)發(fā)效率難題并獲國(guó)際頂刊認(rèn)證的研究成果。
提出四個(gè)創(chuàng)新方法,推理平均提效30%
企業(yè)將大模型應(yīng)用付諸實(shí)踐,面臨著諸多卡點(diǎn):
一方面進(jìn)入大模型應(yīng)用門(mén)檻高,另一方面模型訓(xùn)練與推理效率低。
京東大模型開(kāi)發(fā)計(jì)算技術(shù),能支持企業(yè)的模型開(kāi)發(fā)訓(xùn)練及生產(chǎn),讓龐大、重型的AI模型“瘦身”成精悍的小模型,精華依舊,效率大增,瘦身不降智。
既能節(jié)省算力資源,加速推理,還能適應(yīng)多平臺(tái),廣泛部署到更多平臺(tái)上。
論文中提出了四個(gè)創(chuàng)新方法:
- 模型蒸餾:采用動(dòng)態(tài)分層蒸餾技術(shù),特別是在預(yù)訓(xùn)練階段進(jìn)行蒸餾,調(diào)整僅0.5%的參數(shù)實(shí)現(xiàn)低資源場(chǎng)景下的高效訓(xùn)練,減少大型模型的部署成本。
- 數(shù)據(jù)治理:提出跨領(lǐng)域數(shù)據(jù)動(dòng)態(tài)采樣算法,自動(dòng)混合不同領(lǐng)域數(shù)據(jù),并引入隱私保護(hù)和主動(dòng)學(xué)習(xí)技術(shù),提升大模型泛化能力。
- 訓(xùn)練優(yōu)化:使用貝葉斯優(yōu)化(BO)框架進(jìn)行超參數(shù)優(yōu)化和架構(gòu)搜索,尤其是擅長(zhǎng)處理離散空間,MPMD場(chǎng)景下資源利用率提升40%。
- 云邊協(xié)同:支持在云端進(jìn)行模型搜索和訓(xùn)練,邊緣設(shè)備負(fù)責(zé)部署和推理,并利用兩階段壓縮策略以適應(yīng)資源限制,提升云邊協(xié)作的高效性。
值得一提的是,該平臺(tái)還可支持京東大模型、Llama、DeepSeek等多個(gè)模型的蒸餾、推理。
在模型蒸餾層面,效果較同量級(jí)模型有明顯提升。
以京東大模型為例,蒸餾后的大模型Livebench提升14分。
大量的實(shí)驗(yàn)結(jié)果也證明有效性和效率,推理平均提效30%,訓(xùn)練成本平均降低70%。
根據(jù)企業(yè)自身業(yè)務(wù),將通用模型轉(zhuǎn)化為專業(yè)模型
這套京東沉淀下來(lái)的大模型開(kāi)發(fā)計(jì)算的技術(shù),支撐了JoyBuild大模型開(kāi)發(fā)計(jì)算平臺(tái),廣泛服務(wù)行業(yè)用戶。
JoyBuild能夠?yàn)榭蛻舻拇竽P烷_(kāi)發(fā)和行業(yè)應(yīng)用開(kāi)發(fā),提供定制化解決方案。
它支持各類模型的調(diào)優(yōu)開(kāi)發(fā),內(nèi)置20余種開(kāi)源模型和豐富的數(shù)據(jù)集,并提供100余種算法和工具鏈,幫助企業(yè)根據(jù)自身業(yè)務(wù)特征,將通用模型迅速轉(zhuǎn)化為專業(yè)模型,一站式應(yīng)用大模型。
現(xiàn)在,不到一周時(shí)間,企業(yè)即可完成從數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練到模型部署的全流程;之前需要10余人的科學(xué)家團(tuán)隊(duì)工作,現(xiàn)在只需要1-2個(gè)算法人員;通過(guò)平臺(tái)模型加速工具優(yōu)化,節(jié)約90%的推理成本。
京東豐富的業(yè)務(wù)場(chǎng)景,還為平臺(tái)上的基礎(chǔ)大模型提供具體的行業(yè)應(yīng)用場(chǎng)景,加速基于大模型的商業(yè)化落地。
在行業(yè)知識(shí)庫(kù)之外,JoyBuild沉淀了京東自己的零售、物流、健康、金融等行業(yè)Know-How,可應(yīng)用于供應(yīng)鏈優(yōu)化、智能客服、營(yíng)銷內(nèi)容生成等各類場(chǎng)景,加速模型普惠。
京東給出的大模型解法并不是“黑箱”,而是一條解決大模型訓(xùn)練效率及應(yīng)用問(wèn)題的通用路徑,是真正的“授之以漁”。
未來(lái),京東將進(jìn)一步提升大模型開(kāi)發(fā)與計(jì)算效率,讓中小型和大型企業(yè)都能低成本、高效構(gòu)建專屬AI應(yīng)用,助推AI規(guī)模化應(yīng)用落地。