“后大數據時代”,看TalkingData如何定義
原創經歷了從上個世紀70年代開始“辦公自動化”到今天“移動互聯時代”,現在人類科技演進再次來到了十字路口。虛擬現實、人工智能、現實增強、物聯網、車聯網……網絡、科技正在逐漸改變我們生活中習以為常的方方面面,可以預見在不遠的將來,人類將迎來一輪新的科技爆發。而數據必將是下一次科技爆發的基石!
作為一家專注于大數據領域的公司,TalkingData不斷嘗試將移動大數據應用于不同領域,更好的發揮數據應有的價值,為不同的行業提供數據應用的新思路、新模式。由TalkingData主辦的——“T11 2016暨TalkingData智能數據峰會”在北京中國大飯店隆重召開。國內外各領域的數十位數據專家、行業精英、知名學者齊聚一堂,深入探討了業界建設性議題,引導行業方向,創造海量商機,堪稱數據領域一年一度的行業盛會。
主會場
大會期間,TalkingData CTO肖文峰接受了51CTO記者的采訪,對“后大數據”時代,人工智能、海量非結構化數據、智能數據平臺(SmartDP),及TalkingData團隊情況作了詳細介紹。
肖文峰首先介紹說,目前TalkingData在線上的部分覆蓋了超過40億的智能設備,服務12萬款應用,擁有10萬人次的開發者。線下數據的采集,主要是覆蓋80個城市,大概有3000多家商場,有400萬個POI指紋信息。線上線下數據的打通,為不同行業提供了精準的基礎數據源。
TalkingData CTO肖文峰
TalkingData全球算法大賽
在今年的7月至9月,TalkingData舉辦了全球算法大賽。大賽中,TalkingData為數據科學愛好者們開放了獨一無二的中國移動互聯網數據和真實的商業場景,并提供兩萬五千美元高額獎金,讓本次大賽成為全球大數據人才真正實現用數據創造價值的平臺。
據肖文峰介紹,全球大概有2000個團隊或數據科學家參與了此次算法大賽。大賽中,國外的數據分析師和科學家對中國和中國的數據非常感興趣。“我們發布脫敏的數據,他們在上面跑各種各樣的算法,通過各種可視化的方式去探究人的行為,人口屬性,比如男女,發現了很多有意思的算法和場景。這場比賽對我們來說也是了解這些科學家的過程,我們知道這些科學家在哪,他們喜歡什么,如何交流等等。”
肖文峰表示,TalkingData希望逐步把一些數據開放出去,從國外引入更多的數據科學能力,這也算是此次大賽一個亮點。
開放的態度
在TalkingData看來,數據一定要開放,社會才能發展。TalkingData從一開始就站在客觀中立的角度,盡可能把數據共享出來,以產生更大的價值。比如“數據觀象臺”,把一些比較普遍的數據,例如應用排名公示出來,讓對這些數據感興趣的人直接應用。
TalkingData是一個深度的開源社區的擁抱者、參與者、推動者。其大數據監控系統OWL(貓頭鷹),就是開源的。
在“T11 2016暨TalkingData智能數據峰會”主會場上,TalkingData CEO崔曉波也公開了兩個開源項目:Fregata和Myna。Fregata是超大規模算法引擎,這個算法引擎的優勢是在10億樣本、1000萬維度的情況下,比Spark MLlib原生算法庫的計算效率高兩個數量級,大概分鐘級可以得到訓練結果,它里面做了很多參數的自動調整,還有數據計算引擎的優化等,來提高計算效率,能夠達到一次數據掃描就能夠收斂。這是市面上別的開源算法庫實現不了的。
Myna項目是一個情景感知引擎,能夠幫助應用開發者判斷手機用戶的姿態,是走是跑還是開車等等。Myna有自己的專利技術,與國外的同類技術相比,主要有兩大優勢。第一是姿態識別速度。它的反應速度比同類技術提高了3倍。同樣識別精度的情況下,它的識別時間只有國外同類產品的1/3,同時它的耗電量只有國外產品的1/2,因為它用了一些數據窗口重疊的方法來加速計算,因此耗電量也低很多。第二,不同于同類產品用C++方式來實現,Myna是基于JAVA實現的,集成一些SO的庫非常簡單。
智能數據平臺(SmartDP)
智能數據平臺(SmartDP)是TalkingData新創建的詞。它是基于智能數據應用,探索商業價值的平臺,具有數據管理、數據工程和數據科學的能力。旨在發揮自身優勢,利用5年來在數據科學、數據管理、數據工程方面的各項積累,在橫跨互聯網、移動互聯網、傳統行業等領域積累的經驗,有機整合并產品化,促進行業發展,并為各行各業提供更完善的數據產品及服務。
肖文峰透露,今后,TalkingData所有的產品體系,都會圍繞以SmartDP為核心的數據生態,構建數據工程能力、數據的科學能力以及數據的管理能力,增加更多的數據源和數據應用,讓更多的合作伙伴基于這個平臺產生價值。
團隊的力量
據肖文峰介紹,TalkingData的技術團隊分四種角色,一是數據管理員,關注于如何匯聚數據,如何高效地清洗數據,是這個團隊的任務也是難點。第二種是數據科學家團隊,不管是前端客戶的需求,還是后端自己的數據分析師,或者數據管理員、數據工程團隊,只要有算法的需求,都需要依賴于數據科學家建模,優化算法,提高算法的計算效率。第三種是數據工程團隊,接近于傳統的產品研發團隊,偏工具平臺,關注于數據存儲、數據計算、云計算框架搭建、虛擬化等。數據工程團隊需要提供工具平臺,讓數據科學家、數據管理員、數據分析師更好地利用數據,管理數據。第四種是領域工程團隊,是全能型的技術團隊,更加偏項目。領域工程團隊負責解決客戶的問題,無論是用TalkingData的數據還是第三方數據,無論是用TalkingData的技術還是第三方的技術,最終目的都是為了解決客戶遇到的現實問題,完成交付。
此外,社區的貢獻也不可小覷,在解決客戶問題過程中,技術生態的每個部分,從基礎存儲計算架構到數據科學,從數據采集、獲取、準備、分析到發布,幾乎都有涉及,有的靠合作伙伴做,有的需要自己去開發,因此積累了不少技術能力。肖文峰強調,只有保持一種開放的心態,外延才會更大,才能看到更多,只有更多的貢獻才有更多的收獲!