框架、平臺和智能應用-大數據創新在中國的重點和未來
首次Strata+Hadoop World(SHW)北京大會在2016年8月初成功召開,好評如潮。我們的愿景是:通過一個大會來展現大數據和數據科學領域在中國以及全球的趨勢與方向。非常多有意思的創新點在大會的60多個議題演講和主題演講中涌現。
在過去的幾年中,我見證了中國很多公司已經成為早期的和重要的Apache Spark的貢獻者。而Spark作為一個分布式的數據處理框架,已經成為最活躍的大數據開源項目。那些持續跟蹤數據科學和大數據的人士,應該能敏銳地認識到來自中國的公司正在持續地把類似Spark這樣的技術的極限推進到更大的規模,而這樣的規模在其他國家是無法見到的。我非常高興終于能與中國本土的數據社區見面,并能夠創造機會讓中國的技術專家和來自世界各地的專家交流思想。
應用
SHW不僅僅是一個學習框架、平臺和技術的場合,我們也希望能集中展示多個領域的多種應用。我們提供了數據在金融、安全、電子商務和社交媒體、交通運輸和物流、通信和移動計算、制造業、教育和公共服務等領域的應用案例。
數據科學和人工智能
在本次大會的眾多議題中最熱的話題就是大規模的機器學習和人工智能(AI)應用與技術。實際動手的培訓課程涵蓋了很多與之相關的主題,包括TensorFlow、MLlib;Petuum和DL4J這樣的框架;多個領域內的創新,如金融領域(螞蟻金服和宜人貸);無人駕駛汽車(百度)、對話機器人和對話接口(微軟);知識數據庫和知識圖譜。講師們介紹了很多具體的方法(如深度學習)和框架,并帶領大家探討了如何采用分布式機器學習和人工智能技術并進行產品化。Datavisor的CEO(謝映蓮)介紹了一個新穎的基于Apache Spark的平臺,可以利用大規模無監督機器學習技術來進行欺詐檢測。
框架和平臺
對現在的數據工程師而言能熟練使用多種技術是一個基本的工作技能。參加實踐課程的學員都能夠與一些重要的開源技術的創始人交流。這些技術包括Hadoop、Spark、TensoFlow、Kylin、Druid、Alluxio、Heron、DistributedLog和DL4J。
而SHW的另外一部分,各種活動和議題演講則涵蓋了解決方案架構的最佳實踐。那些把獨立的部分組合成一個有序的應用平臺的架構設計分享則成為大會的另外一大熱點。包括小米、滴滴出行、推特、優步、百度、阿里巴巴、京東和華為在內的多家公司都概略性地介紹了他們的數據平臺的不同方面,以及一些具體的應用案例。
大會的議題部分也較好地涵蓋了基于云的平臺、技術和解決方案。
智能、實時的應用
來自小米和海爾的演講人介紹了關于物聯網、實時計算技術、工業制造和智能家居的應用。其他的演講人則對與金融、安全、電子商務和社交媒體相關的應用進行了介紹。除了行業應用以外,其他的議題演講也涵蓋了構建流計算應用的多個技術方面,比如使用諸如Spark、Apache Beam、Durid、Alluxio、Heron和DistribuedLog等技術來構建流計算應用。
創造全球思想碰撞的平臺
我想特別強調的是,本次大會實現了與中國的本土開發社區的積極合作,創造了一個讓中國的技術專家和來自全球的專業人士之間進行思想碰撞的平臺。這也反映了主辦SHW的一個核心愿景,即構建一個讓大數據、數據科學和人工智能技術領域的實踐者、用戶和企業進行廣泛交流的社區。
一些分布式計算技術的最大規模的生產級部署是在中國發生的。本次大會的與會者表達出了對于來自這些中國公司的演講的極大興趣。同時一些中國的與會者也告訴我,他們非常高興能有機會傾聽國外技術專家的分享。隨著SHW北京的成功舉辦,我們期待著一個跨越中國國界的數據社區的自然形成。
本·羅瑞卡(Ben Lorica)
本· 羅瑞卡是O'Reilly的首席數據科學家和關于數據方面的內容策略主管。在多個領域里(包括直銷市場、消費者和市場研究、精準廣告、文本挖掘和金融工程),他曾經進行了商業智能、數據挖掘、機器學習和統計分析的工作。他層效力于投資管理公司、互聯網創業企業和金融服務公司。