谷歌把打敗99%程序員的AutoML集成到Kaggle平臺!
以后參加Kaggle競賽,可以直接派出AutoML自動訓練AI怪獸參賽了。谷歌今天宣布,將Cloud AutoML服務深度集成到Kaggle平臺,雖然是付費服務,但提供了一攬子免費試用和補貼方案。
谷歌宣布,將用于訓練機器學習算法的Cloud AutoML服務集成到數據科學平臺Kaggle中。
Cloud AutoML是一個基于云的工具包,提供一個拖放界面來訓練AI模型。使用AutoML,任何人都可以創建定制的機器學習模型,只需極少的工作量和機器學習專業知識。
Kaggle是一個供數據科學家和其他機器學習愛好者探索、分析和分享他們的工作的在線社區,被谷歌于2017年收購。Kaggle也是全球最大的機器學習及數據科學競賽平臺,就在今天,谷歌宣布Kaggle社區最近達到了一個新的里程碑,用戶數突破了350萬。
谷歌表示,通過將Cloud AutoML與Kaggle整合在一起,它正在推進其使命,即“通過為他們提供在該領域領先所需的技能和工具,使我們的數據科學家社區更加強大”。
Cloud AutoML允許用戶從軟件開發工具包或基于web的用戶界面獲取數據,設置一些參數,然后根據這些數據訓練模型;經過訓練的模型隨后可以直接部署到谷歌的云基礎架構上。
新的集成將使Kaggle用戶能夠在Jupyter Notebooks中直接使用 Cloud AutoML SDK,這是數據科學家用來創建和共享包含實時代碼、公式、可視化和敘述性文本的開源web應用程序。
Kaggle產品經理Devvret Rishi說:“今天發布的重點是使我們的社區能夠在Kaggle Notebooks上直接使用SDK。”
Cloud AutoML是一項付費服務,不過它為初學者提供了免費試用方案。谷歌還為用戶全年提供谷歌云平臺(GCP)積分,以幫助補貼在Kaggle上使用AutoML的成本,并且,所有注冊GCP的新Google帳戶都將獲得$ 300的補貼。
今年6月,谷歌還將BigQuery數據倉庫服務和Kaggle集成在一起。該集成允許BigQuery用戶使用快速SQL查詢,在SQL中訓練機器學習模型,并在Kaggle的Jupyter筆記本環境中進行分析,稱為Kaggle Kernels。
根據谷歌的說法,這種方法的好處在于,用戶無需實際移動或下載數據來查詢數據或對其進行機器學習。一旦用戶的Google Cloud帳戶鏈接到內核筆記本或腳本,就可以使用BigQuery API客戶端庫直接在筆記本中撰寫查詢,針對BigQuery運行查詢,并使用數據進行幾乎任何類型的分析。
AutoML有多強:Kaggle競賽擊敗99%人類程序員
AutoML在今年早些時候就引起了人們的關注,它在Cloud Next '19的Kaggle Days舉行的機器學習競賽中一度脫穎而出,只是在最后時刻才被一組數據科學家以微弱優勢淘汰。
今年4月,在長達8個半小時的Kaggle Days數據處理挑戰上,有一個團隊非常特別:這個由3名谷歌研究員組成的小組不打算自己上場,而是用一款名為AutoML的AI軟件參與競賽。
其他200多名參與者來自Kaggle平臺的頂級梯隊,他們組成多個小組,任務是“從一家匿名汽車零部件制造商那里得到數據,通過這些數據,他們要預測工廠產出中的不良批次”。
谷歌研究員Quoc Le與同事Ming Chen和Lu Yifeng Lu一起領導了AutoML項目
現場掛著一塊大屏幕,上面是比賽即時排行榜,參賽的程序員就在這塊大屏幕的陰影下辛勤工作。程序員們通過向網站提交代碼進行測試來衡量他們在比賽中的成果,分數會實時顯示在屏幕上。
對于AI可能取代頂尖程序員這一點,Kaggle.com上排名第一的“大師”Vladimir Iglovikov表示懷疑,在場的大多數人也都認為,AI軟件不可能與世界頂尖的數據科學家的創造力相媲美。
然而,比賽進行幾個小時后,讓人震驚的結果出現了,AutoML提交了第1個自動生成的代碼,在排行榜上名列第2,領先了絕大多數小組。但這對于谷歌團隊來說一點都不奇怪,該軟件是3年前他們花巨資開發的,一開始的目的就是要替代自己的部分工作。
領導了谷歌AutoML開發的AI研究員Quoc Le感到興奮。他和團隊在過去的幾場Kaggle比賽中測試了AutoML,通常都需要花費幾個月而不是幾個小時。他們認為在現場比賽中AutoML能取得前10%的成績就算是成功了。
到了下午3:30,AutoML的勝利似乎已成定局,最接近它的人類團隊也落后很遠。當選手們在下午5:30集合查看最終比分時,歡呼聲爆發了:AutoML 排名第二。
AutoML贏了99%的頂尖人類程序員。
而且在競賽中,使用AutoML的團隊只需要付出較少的精力,就能迅速獲得出色的性能,并且無需領域專業知識或監督。在數據準備上花費時間很少,而在特征工程、模型選擇和超參數調參上幾乎不用花什么時間。
此外,在另一個IEEE的競賽中,AutoML的時間效率的優勢更加突出,數千團隊花了幾周的時間,才能在排行榜上大幅超越AutoML的基準水平。
上圖為該賽事前四周的提交分數(個人得分),與比賽開始時發布的AutoML Tables基準分數(綠線)。藍點虛線表示每日提交分數的90%分位水平。AutoML Tables基準在比賽的前兩周中都超過了這一水平
AutoML的簡單性和有效性為存在數據科學問題需求的人群(這些人不一定具有深厚的數據科學背景)提供了創建性能強大的模型的可能。
大酬賓:Kaggle用戶使用AutoML,每個關聯賬號補貼300刀
Cloud AutoML可幫助用戶針對各種任務集(視覺,語言到結構化數據)構建自定義機器學習模型。每種應用的實際用法各不相同,但所有方法都遵循從SDK或Web UI提取數據的一般模式,用戶可以調節設置,并輸出訓練好的模型。今天的重點是,我們的社區已經能夠直接在Kaggle Notebook中使用SDK。
簡單上手:如何在Kaggle平臺上使用AutoML
Kaggle與AutoML的集成遵循了我們先前將BigQuery引入Kaggle Notebook的腳步。
首先,只需關聯用戶的GCP帳戶并授權訪問要使用的云服務,同時啟用云存儲將使AutoML輕松訪問您的數據。
關聯Google帳戶后,需要仔細檢查云帳戶是否已準備就緒。為此,請確保已為GCP項目啟用了機器學習API和結算設置。AutoML是一項付費服務,為了使更多的Kagglers可以使用AutoML,我們計劃在全年內提供GCP積分,以補貼使用該服務的費用,所有注冊G谷歌云平臺的新帳戶都將獲得300美元的額度。
用戶可以使用Kaggle Notebook中的內置客戶端SDK,也可以使用云控制臺中的Web界面輕松運行AutoML。要在Notebook中使用AutoML,請查看幫助文檔或教程。要了解有關自動機器學習的主題及其改善數據科學工作流程的更多信息,請觀看我們的講解視頻。
現在,AutoML已經深度集成到Kaggle競賽平臺,相信今后的Kaggle競賽,派出AutoML參賽的程序員會越來越多。