擴展機器學習模型的五大挑戰
譯文
【51CTO.com快譯】機器學習模型是為定義的業務目標設計的。機器學習模型產品化是指在相關數據集上托管、擴展和運行機器學習模型。生產級機器學習模型還需要有彈性和靈活性,以適應將來的變化和反饋。Forrester最近的一項研究表明,改善客戶體驗、提升盈利能力和增加收入是組織使用機器學習項目計劃實現的幾個主要目標。
雖然機器學習模型已獲得全世界的贊譽,但很難轉化為積極的業務效益。處理活躍數據并將機器學習模型部署到生產環境時,工程、數據和業務方面的一大堆問題成為瓶頸。據調查,43%的人稱在機器學習模型生成和集成方面遇到障礙。確保機器學習模型實現企業預期的最終目標很重要,由于可靠而廉價的開源基礎設施,機器學習模型在全球組織的采用正以前所未有的速度增長。Gartner預測,全球40%的領先組織計劃在2020年底之前實際部署AI解決方案。為了解機器學習模型產品化方面的常見陷阱,不妨了解組織面臨的五大挑戰。
1. 數據的復雜性
需要約100萬條相關記錄才能在數據上訓練機器學習模型,這不能是隨隨便便的數據。數據可行性和可預測性方面的風險浮出水面。評估我們是否有相關的數據集、是否足夠快地獲取這些數據集以便進行預測并非易事。獲取上下文數據也是個問題。在百勝餐飲集團(Yum Brands)的一個機器學習擴展項目中,該公司的一些產品(如肯德基,奉行新的特許權加盟計劃)沒有足夠的客戶數據。光有數據還不夠。大多數機器學習團隊從非數據湖方法入手,在傳統數據倉庫上訓練機器學習模型。如果是傳統的數據系統,數據科學家常常將80%的時間用于清理和管理數據,而不是訓練模型。還需要強大的治理系統和數據分類,以便數據透明地共享并分門別類,從而再次利用。由于數據復雜性,維護和運行機器學習模型的成本相對回報會隨著時間的推移而降低。
2. 設計和部署
一旦數據可用,就必須根據使用場景和未來彈性敲定基礎設施和技術堆棧。機器學習系統可能很難設計。機器學習領域有眾多技術可用。模型要取得成功,關鍵在于選擇每種技術堆棧時將不同領域的技術堆棧分別標準化,以便不會加大產品化的難度。比如說,數據科學家可能使用Pandas之類的工具,用Python編代碼。但是這些未必很好地適用于Spark或Pyspark更合適的生產環境。設計不當的技術解決方案很費錢。然后,生命周期挑戰以及管理和穩定生產環境中的多個模型也變得難以處理。
3. 整合風險
機器學習模型要取得成功,與不同的數據集和建模技術很好地集成在一起的可擴展生產環境至關重要。整合不同的團隊和運營系統總是具有挑戰性。復雜的代碼庫必須融入到準備部署到生產環境的結構清晰的系統中。如果沒有將模型部署到生產環境的標準化流程,團隊會在任何階段停滯不前。不同的團隊需要將工作流程自動化集成到工作流程系統中,并進行測試。如果未在合適的階段測試模型,最后就要修復整個生態系統。技術堆棧必須實現標準化,否則集成可能是場噩夢。集成還是確保機器學習實驗框架不是一次性奇跡的關鍵時刻。否則如果業務環境發生變化或遭遇災難性事件,模型無法提供價值。
4. 測試和模型支持
測試機器學習模型很困難,但與生產過程的其他步驟一樣重要,甚至更重要。了解結果、運行狀況檢查、監測模型性能、留意數據異常以及重新訓練模型一起組成整個產品化周期。即使在運行測試之后,可能仍需要適當的機器學習生命周期管理工具來查找測試中未出現的問題。
5. 分配角色和積極溝通
數據科學、數據工程、DevOps及其他相關團隊之間保持透明的溝通對于機器學習模型的成功至關重要。但分配角色、提供詳細的訪問權限以及為每個團隊密切關注很復雜。緊密的協作和溝通對于在早期階段識別不同方面的風險至關重要。讓數據科學家深入參與也事關機器學習模型的未來。
除了上述挑戰外,還要留意不可預見的事件,比如新冠疫情??蛻舻馁徺I行為突然變化時,過去的解決方案不再適用,缺少充分訓練模型的新數據就成了障礙??傊瑪U展機器學習模型并不容易。
原文標題:5 Challenges to Scaling Machine Learning Models,作者:Sigmoid Analyitcs
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】