當前,人工智能在企業(yè)規(guī)模化應(yīng)用中,存在諸多難點,比如:研發(fā)上線周期長,效果不及預(yù)期,數(shù)據(jù)和模型難匹配等。在此背景下,MLOps應(yīng)運而生。MLOps作為幫助在企業(yè)中擴展機器學(xué)習(xí)的一項關(guān)鍵技術(shù)正在崛起。
日前,由51CTO組織的?AISummit 全球人工智能技術(shù)大會?成功舉辦。在會議開設(shè)的“MLOps最佳實踐”專場,開放原子基金會 TOC副主席譚中意、第四范式系統(tǒng)架構(gòu)師盧冕、網(wǎng)易云音樂人工智能研究員吳官林、中國工商銀行軟件開發(fā)中心大數(shù)據(jù)和人工智能實驗室副主任黃炳帶來了各自的主題演講,圍繞研發(fā)運維周期、持續(xù)訓(xùn)練和持續(xù)監(jiān)控、模型版本和血緣、數(shù)據(jù)線上線下一致性、高效數(shù)據(jù)供給等熱點方向,探討了MLOps的實戰(zhàn)效果和前沿趨勢。
MLOps的定義和評估
Andrew NG曾在多個場合表達過AI已經(jīng)從model centric 轉(zhuǎn)到 data centric,數(shù)據(jù)是AI落地最大的挑戰(zhàn)。如何保證數(shù)據(jù)的高質(zhì)量供給是關(guān)鍵問題,而要解決好這個問題,需要利用MLOps的實踐來幫助AI多快好省的落地。
那么,MLOps解決哪些問題?如何評估MLOps項目的成熟度?開放原子基金會 TOC副主席、LF AI & Data TAC成員譚中意帶來了主題演講《從model centric 到 data centric — MLOps幫助AI多快好省的落地》,對此進行了詳細的介紹。
譚中意首先分享了一批業(yè)內(nèi)科學(xué)家和分析師的觀點。Andrew NG認為,提高數(shù)據(jù)質(zhì)量比提高模型算法,更能提升AI落地效果,在他看來,MLOps最重要的任務(wù)就是在機器學(xué)習(xí)生命周期的各個階段,始終保持高質(zhì)量的數(shù)據(jù)供給。
要實現(xiàn)AI的規(guī)模化落地,必須發(fā)展MLOps。至于到底什么是MLOps,業(yè)內(nèi)莫衷一是,他給出了自己的解釋:它是“代碼+模型+數(shù)據(jù)的持續(xù)集成、持續(xù)部署、持續(xù)訓(xùn)練和持續(xù)監(jiān)控”。
接著,譚中意重點介紹了機器學(xué)習(xí)領(lǐng)域特有的平臺Feature Store(特征平臺)的特性,以及目前市面上主流的特征平臺產(chǎn)品。
最后譚中意就MLOps的成熟度模型進行了簡要闡述。他提到,微軟Azure按照機器學(xué)習(xí)全流程的自動化程度的高低,把MLOps的成熟模型分成了(0、1、2、3、4)這幾個等級,其中0是沒有自動化的,123是部分自動化,4是高度自動化。
線上線下一致的生產(chǎn)級特征平臺
在很多機器學(xué)習(xí)場景中,面臨著實時特征計算的需求。從數(shù)據(jù)科學(xué)家離線開發(fā)的特征腳本,到線上實時特征計算,AI 落地的成本非常高。
針對這一痛點,第四范式系統(tǒng)架構(gòu)師、數(shù)據(jù)庫團隊和高性能計算團隊負責(zé)人盧冕在主題演講《開源機器學(xué)習(xí)數(shù)據(jù)庫 OpenMLDB:線上線下一致的生產(chǎn)級特征平臺》中重點展示了 OpenMLDB如何實現(xiàn)機器學(xué)習(xí)特征開發(fā)即上線的目標,以及如何保證特征計算的正確性、高效性。
盧冕指出,隨著人工智能工程化落地的推進,在特征工程環(huán)節(jié),線上線上的一致性校驗帶來了高昂的落地成本。而OpenMLDB恰恰提供了低成本的開源解決方案,它不僅解決了核心問題-機器學(xué)習(xí)線上線下的一致性,解決了正確性的問題,而且實現(xiàn)了毫秒級的實時的特征計算。這是其核心價值所在。
據(jù)盧冕介紹,印尼線上支付公司Akulaku是OpenMLDB開源以后的第一個社區(qū)企業(yè)用戶,他們把OpenMLDB整合在其智能計算架構(gòu)中。在實際業(yè)務(wù)中,Akulaku平均一天要處理將近10億條訂單數(shù)據(jù),使用OpenMLDB后,其處理數(shù)據(jù)的延遲僅僅在4毫秒,充分滿足了他們的業(yè)務(wù)需求。
構(gòu)建端到端機器學(xué)習(xí)平臺
依托網(wǎng)易云音樂海量數(shù)據(jù)、精準算法、實時系統(tǒng)的基礎(chǔ),服務(wù)于內(nèi)容分發(fā)和商業(yè)化多場景,同時滿足既要建模效率高,也要使用門檻低,還要模型效果顯著等一系列算法工程追求,為此網(wǎng)易云音樂算法工程團隊結(jié)合音樂業(yè)務(wù)開始了端到端機器學(xué)習(xí)平臺的實踐落地。
網(wǎng)易云音樂人工智能研究員、技術(shù)總監(jiān)吳官林帶來了主題演講《網(wǎng)易云音樂特征平臺技術(shù)實踐》,從云音樂業(yè)務(wù)背景出發(fā),闡釋模型實時化落地方案,結(jié)合Feature Store進一步和與會者分享了其思考。
吳官林提到,在云音樂模型算法工程的建設(shè)中,主要面臨實時化程度低、建模效率低、線上線下不一致導(dǎo)致模型能力受限三大痛點。針對這些痛點,他們從模型實時化開始,在模型實時化覆蓋業(yè)務(wù)的過程中去構(gòu)建相應(yīng)的Feature Store平臺。
吳官林介紹,他們首先進行了模型實時化在直播場景上的探索并取得了一定成效。在工程上,也探索出一個完整的鏈路,并落地了一些基礎(chǔ)工程建設(shè)。但模型實時化聚焦在精排實時場景,但80%以上場景是離線模型。在全鏈路建模過程中,每個場景開發(fā)者都從原點做數(shù)據(jù)開始,導(dǎo)致了建模周期長,效果還不可預(yù)期,新手開發(fā)門檻高等問題。考慮到一個模型上線周期,80%時間在做數(shù)據(jù)相關(guān),其中特征占比高達50%。他們開始著手沉淀特征平臺Feature Store。
Feature Store主要解決了三方面的問題:一是定義元數(shù)據(jù),統(tǒng)一特征血緣、計算、推送過程,實現(xiàn)基于批流一體的高效特征生產(chǎn)鏈路;二是針對特征的特性進行改造,解決特征存儲問題,根據(jù)實際使用場景對延遲和吞吐量的不同,提供各種類型的存儲引擎;三是解決特征一致性的問題,從統(tǒng)一的API讀取指定格式的數(shù)據(jù),作為機器學(xué)習(xí)模型的輸入,用于推理、訓(xùn)練等。
金融智能化發(fā)展的新基建
中國工商銀行軟件開發(fā)中心大數(shù)據(jù)和人工智能實驗室副主任黃炳在其主題演講《筑牢金融智能化創(chuàng)新發(fā)展的人工智能新基建》重點介紹了工商銀行的MLOps實踐,涵蓋模型研發(fā)、模型交付、模型管理、模型迭代運營的全生命周期管理體系的建設(shè)流程及技術(shù)實踐。
之所以需要MLOps,是因為人工智能如火如荼的發(fā)展背后,很多已經(jīng)發(fā)生或潛在的“AI技術(shù)債”不容忽視。黃炳認為,MLOps的理念是可以解決這些技術(shù)債的,“如果說DevOps是解決軟件系統(tǒng)技術(shù)債問題的利器,DataOps是打開數(shù)據(jù)資產(chǎn)技術(shù)債問題的鑰匙,那么脫胎于DevOps理念的MLOps就是治療機器學(xué)習(xí)技術(shù)債問題的良藥”。
在建設(shè)過程中,工商銀行的MLOps實踐經(jīng)驗可以總結(jié)為四點:夯實公共能力之“基”,建設(shè)企業(yè)級數(shù)據(jù)中臺,實現(xiàn)數(shù)據(jù)沉淀共享;降低應(yīng)用門檻之“器”,建設(shè)相關(guān)的建模和服務(wù)組裝流水線,形成流程化、積木組裝化的研發(fā)模式;建立AI資產(chǎn)沉淀共享之“法”,最大限度降低AI建設(shè)的成本,形成共享共建生態(tài)的關(guān)鍵所在;形成模型運營迭代之“術(shù)”,根據(jù)數(shù)據(jù)驅(qū)動、按照業(yè)務(wù)價值驅(qū)動,建立模型運營體系,是模型質(zhì)量持續(xù)迭代和量化評價的基礎(chǔ)。
演講尾聲,黃炳做了兩點展望:第一,MLOps需要更安全、更合規(guī)。未來企業(yè)發(fā)展需要非常多的模型來實現(xiàn)數(shù)據(jù)驅(qū)動的智能決策,因此會衍生出更多與模型相關(guān)的開發(fā)、運維、權(quán)限管控、數(shù)據(jù)隱私、安全性和審計等企業(yè)級需求;第二,MLOps需要與其他Ops結(jié)合。解決技術(shù)債問題是一個復(fù)雜的過程,DevOps方案、DataOps方案和MLOps方案必須協(xié)調(diào)聯(lián)動,互相賦能,才能充分發(fā)揮三者的全部優(yōu)勢,實現(xiàn)“1+1+1>3”的效果。
寫在最后
據(jù)IDC預(yù)測,到2024年將有60%的企業(yè)使用MLOps來實施機器學(xué)習(xí)工作流。IDC分析師Sriram Subramanian曾如此評價:“MLOps將模型速度縮短到幾周——有時甚至是幾天,就像使用DevOps加快應(yīng)用構(gòu)建的平均時間一樣,這就是為什么你需要MLOps。”
當前,我們正處在人工智能快速擴展的拐點上。企業(yè)通過采用MLOps可以構(gòu)建更多模型、更快地實現(xiàn)業(yè)務(wù)創(chuàng)新,更加多快好省地推進AI的落地。千行百業(yè)正在見證和驗證著這樣一個事實:MLOps正在成為企業(yè)AI規(guī)模化的催化劑。更多精彩內(nèi)容請?點擊查看?。