專訪TalkingData研發副總閻志濤:解讀大數據的秘密
原創
在大數據的時代,數據的價值不言而喻。但是真正有價值的并非數據本身而是對數據進行分析挖掘后的分析。對如今雨后春筍的互聯網公司來說,當數據足夠多、足夠全面,他們甚至可以為用戶畫一幅數據肖像。現在幾乎所有的行業都在談大數據,然而隨著移動端的流量超越PC端,移動互聯網的數據就成為大數據中不可忽略的重要部分。
51CTO在2014年12月6日即將召開的2014 Spark亞太峰會前夕TalkingData研發副總裁閻志濤,為大家解讀互聯網數據的秘密。
在偏于碎片化的移動互聯網數據中,閻志濤認為“數據主要分為設備信息,應用行為信息,位置信息,傳感器信息這四大類”。
而其中的應用行為信息在一定程度上可以反映用戶的習慣。而位置信息可以更加準確的獲得用戶的位置對于O2O模式有著重要的意義。隨著智能硬件的爆發和普及,傳感器的數據信息更為重要。筆者在之前采訪一位做智能硬件的CEO時他也說道,傳感器就像智能硬件的大腦。所以對于智能硬件的數據收集、分析、挖掘,是智能硬件能否真正智能的關鍵。
閻志濤說:”智能硬件相比于軟件的信息更加瑣碎,相比于移動應用的依附于手機而存在的方式,智能硬件更加不容易普及。換句話說,每種智能硬件智能覆蓋一小部分用戶群體,然而真正的意義在于如何能夠把每個小部分群體的數據收集起來做一次整合,那樣才能發揮***的價值。“
但是在筆者看來目前智能硬件因為芯片的價格導致成本居高不下,而且并沒有殺手級的應用出現。想替代傳統的硬件設備,尚需時日。而隨著智能手機的普及程度,以及手機硬件的配置增加,殺手級的移動應用、火爆的手機游戲卻是頻頻出現。
”從數據方面來看像淘寶、京東、唯品會這樣的電商應用都會有不少的用戶群,而類似于360手機助手,Wifi***鑰匙的工具類應用,因為其自身價值也有一定的用戶群。從目前來看手機游戲中一些社交類,休閑類的游戲會有比較高的用戶群。“閻志濤告訴記者
2012年TalkingData Analytics上線,僅僅兩年唯品會、滴滴打車、聚美優品、去哪兒都成為了它們的用戶,在移動端的覆蓋量也達到了8億以上。
那么在處理如此龐大的數據的分析和挖掘時他們所選用的的框架如何處理這么海量的數據?
閻志濤告訴記者:現在每天要處理好幾個T的數據,分為離線和實時兩條線。在離線方面最初選用的是典型的Hadoop的生態系統,通過小時或者幾個小時的任務來保證最終數據一致性。然而在實時方面,由于用戶的需求比較特殊,我們基于Redis來實現我們的實時統計。隨著業務的發展,我們做了一個TD2.0的平臺,它比離線的更優秀,通過小批量的計算,完成準實時的數據體現。而離線系統則逐漸的切換到以Spark為基礎的一個數據處理平臺。
其實在2012年Spark出現之初就因為其方便地支持迭代運算,對機器學習更友好的特點受到關注。閻志濤也提到:”是TalkingData的算法工程師最早使用Spark做迭代運算,接著把平臺業務也在向上面做遷移。Spark相對Hadoop就是可以更好地進行迭代運算,以及及時請求的延時計算。最重要的是他的生態系統相比Hadoop更適合現在大數據分析的需求。“
然而在運算的容錯率,效率上,閻志濤說:”就我個人的使用情況來看,在一些方面Spark要優于Hadoop。因為Hadoop對IO存在一種高依賴,所有的東西都要放到IO上shuffle出去放到磁盤再讀取進來,這樣導致不能很好的利用機器的計算能力。而Spark本身RDD的模型能夠很好的減少對IO的依賴,充分利用內存,從而提升了性能。“
但國內的JAVA程序員使用Spark需要一個學習Scala的曲線。雖然Spark存在一些問題,但是互聯網公司生來就是為了解決問題的。
無論是Hadoop還是Spark,都是一種開源的技術并沒有高下之分。作為企業或者開發者需要擇其長處而用之。實際上,現在一些社區和論壇上出現了讓Hadoop和Spark融合的聲音。
閻志濤同樣認為:目前這就是一種融合的狀態,現在TalkingData一些即時計算需求、一些請求,都在用Spark做,一些基于Hadoop的生態系統也在往Spark上遷移。
Spark在國內出現的時間不如Hadoop長,一些公司也越來越注重Spark的發展。閻志濤也說:”國內有一個叫Spark Meetup的一個社區,每一期都我們在參與,參加的人也是越來越多。現在像百度、京東、騰訊這些巨頭都在做Spark也越發的重視Spark畢竟Hadoop相對于Spark還是有那么一點點的老久不太適用于某些場景。可以說Spark在國內越來越熱,發展也會越來越好。”
但是作為新興的技術,必然也會有一些不足。拋開這項技術本身不說,因為國內畢竟是中文環境雖然有一些熱心的人寫博客,做翻譯,但是中文的資料還是供不應求。所以需要更多的開發投入到Spark的建設之中。
都在說去IOE,TalkingData的技術團隊很多核心成員都來自于IBM和Oracle在開源的問題上IBM和Oracle卻是兩種不同的態度。閻志濤表示,雖然我們的大部分成員來自IBM和Oracle這種傳統的軟件公司,但是畢竟現在是在互聯網企業,用的也是互聯網的開發方式。其實IBM和Oracle兩家公司對于開源的態度也不太一樣。IBM相對于Oracle對于開源的態度就要開放的多。我們是以開源為主的,雖然用的數據庫是Apache并不會強制要求我們再開回去,當我們認為自己做的夠好的時候,我們就會開回去。我也會要求我們的工程師把代碼放到開源的社區里邊,提高代碼質量。明年我們團隊就會有更多的人員活躍到開源社區當中。
無論是哪一種開源技術,都是千萬人智慧的結晶。Spark也不例外,但是國內的開源現狀并不樂觀甚至是一種半死不活的狀態,還被外國人詬病只進不出。
對此閻志濤告訴記者,的確在以前我們的開源做的不是很好,但是現在比如淘寶和騰訊就把他們的一些技術開源了,我相信過國內更多的企業逐漸的回去開源。就我了解Spark社區,里邊有很多很活躍的來自中國的Contributor。我相信以后也會有越來越多的貢獻。
他也希望團隊的產品做得稍微好一點的時候,我們再開出去。因為這樣會更有價值,如果產品價值沒那么大,就會變成半死不活的狀態,甚至是喪失價值。所以我們現階段努力把產品做好,預計在在2015年可能會把它變成一個開源項目。
在智能硬件頂著改變生活的光環出現的時候,大數據就成為讓其不跌落神壇的保障。無論是Spark還是Hadoop,都需要順應時下的要求。取長補短,擇其優者而用之。