AutoML 2.0:數據科學家過時了嗎?
在過去幾年里,AutoML快速增長。而且目前看來,經濟衰退無可避免,人工智能(AI)和機器學習自動化開發的觀念也必將越來越有吸引力。業界現在推出的各種新平臺(https://dotdata.com)都具有更多的自動化功能。人工智能現在可以驅動所謂的要素工程(Feature Engineering),允許用戶自動發現和創建數據科學處理功能。這種做法開啟了一種全新的數據科學方法,似乎會威脅到數據科學家的作用。
那么,數據科學家需要關注這些發展嗎?數據科學家在自動化過程中的作用是什么呢?鑒于這種新發現的自動化技術,企業又將如何發展呢?

傳統的數據科學過程(圖;dotData公司)
AutoML 2.0必將令數據科學更加自動化
第一代AutoML平臺的重點主要放在自動化數據科學過程中的機器學習部分。但在傳統的數據科學工作流程里,最冗長和最具挑戰性的部分則是被稱之為是要素工程的部分,要素工程是高度手動的一步,主要涉及到連接數據源及構建寬大的“要素表”,需包含豐富多樣的“要素”。與此同時,這些要素還需要針對多種機器學習算法進行評估。
目前,要素工程面臨的挑戰是,只有用更高水平領域的專業知識才能“醞釀”新的要素,而且這一過程需要在評估、拒絕或選擇要素時反復地做。但最近業界出現了新平臺,這些新平臺可以提供旨在解決這一挑戰的附加功能及自動化功能。現在一些具有“自動要素工程”功能的平臺可以從關系數據源以及無結構文件里自動創建要素表。這種能夠在數據科學過程中“自動生成”要素的方法,可以說是個改變游戲規則的功能。
于是,突然之間,“公民”數據科學家開始成為組織開發ML和AI模型的有價值貢獻者。一般來說,「公民數據科學家」指的是商業智能(BI)分析師、數據工程師和組織中其他具有深厚領域知識的、精通技術的成員。借助于機器學習,BI團隊利用自動化要素工程可以在幾天之內開發出復雜的預測分析算法,無需數據科學家幫忙就可以極大地提高生產力。
自動化數據科學:平民化
AutoML 2.0平臺的主要好處之一是可以用于真正的數據科學平民化。
數據科學自動化可以加速發現要素和創建功能的過程,而且是自動的,如此一來,更多的用戶群體就可以為數據科學過程做貢獻。要素創建的自動化使得“公民”數據科學家能夠創建極有用的、高度優化的用例。而且公民數據科學家通常具有高度的“專業領域知識”,因此他們基本無需數據科學團隊的幫助就可以將重點放在對組織具有高價值的用例上。
開啟公民數據科學家的另一個好處在于,企業無需擔心招不到數據科學家而一樣可以開拓數據科學的使用。2018年 LinkedIn的一項研究表明,美國的組織在雇用數據科學家方面遇到困難。鑒于此,能夠發掘新的數據科學貢獻者就顯得尤為重要。
眼下,全球經濟面臨著諸多不確定性,在這種情況下能以最少的投資發掘出幾類新的AI/ML開發人員,必將成為改變游戲規則的價值主張,在維持或增加競爭優勢上意義重大。
自動化數據科學:生產力而非替代
但任何AutoML 2.0平臺如果將定位的重點放在替換或更替數據科學家上就大錯特錯了。大多數數據科學家都將要素工程視為工作中的最大障礙之一。自動化可以幫助加快要素工程的流程,靠的就是自動化可以提供令人難以置信的生產率提升,這種提升若無自動化是不可能實現的。
對于數據科學家來說,利用AutoML 2.0通常可以極大地加快自己的工作,縮短的工作時間從幾天到幾個月不等。而且,數據科學家在AutoML 2.0平臺上使用基于AI的要素工程還可以發現他們從未考慮過的要素。基于AI的要素工程可以自動構建、評估和開通要素,而且可以結合來自基于多列的數據(通常是跨越不同的表和源)。
此外,AutoML 2.0還具有自我發現要素的功能,數據科學家借此功能可以探索所謂的“未知的未知數”,這種“未知的未知數”屬于那些數據科學家由于缺乏時間或缺乏領域專業知識而從未考慮過的要素。
AutoML 2.0:創建更高效、更具包容性的AI / ML程序
所以,AutoML 2.0平臺并沒有威脅到數據科學家的生計,反而有助于加速數據科學過程及令數據科學平民化。與此同時, AutoML 2.0也為數據科學家提高生產力提供了必要的加速和自動化手段,令數據科學家能夠擴展工作規模并為業務帶來更大的效益。AutoML 2.0平臺具有推動數據科學平民化和加速數據科學流程的雙重優勢,也是其最重要的賣點,這種雙重優勢是現代組織擴展數據科學流程規模的關鍵。