梁堰波:數據挖掘與機器學習算法
原創無論是電商還是互聯網廣告,直接面對的是用戶,用戶的屬性決定了他會購買哪些商品或者點擊哪些廣告。那么建立用戶標簽系統對于這些企業非常重要。
本屆WOT軟件技術峰會特邀小象科技作為大會特邀合作伙伴,匯集大數據社區技術精英,于7月27日舉辦大數據專場培訓。本次培訓主要討論如何建立用戶標簽系統和如何使用這些標簽系統實現商業價值。
梁堰波
ChinaHadoop小象社區核心成員
講師介紹:美團網,數據開發與數據挖掘;北京航空航天大學,計算機碩士;法國電信研發中心,云計算與大數據研究員;百度基礎架構部存儲組,軟件開發實習生;VMware中國研發中心Big Data & Cloud組,研發實習生。
1. 從技術來說,您認為大數據在今年還會有什么革新?總體感覺,如何與行業應用結合?
今年大數據的革新從技術的角度來看主要體現在幾個方面,包括Spark生態系統的崛起,Hadoop生態系統越來越多地朝著實時的方向改進,以及各大企業對這些系統和數據基礎設施的使用和改進不斷深入,這個可以從今年已經召開的Hadoop Summit(http://hadoopsummit.org/)和Spark Summit(http://spark-summit.org/2014)上看出一些趨勢。從行業應用上來看,越來越多的行業和企業開始使用這些技術解決他們遇到的問題。從目前來看主要還是集中在互聯網廣告、電子商務、搜索引擎、推薦系統、游戲等一些大數據應用的常規領域。但是隨著今年互聯網金融等新興領域的發展,這些領域也越來越多的使用大數據的技術和方法解決他們遇到的問題。
2.行業大數據其實早就存在,但對此認知并不一樣,您認為這種差異性表現在哪里?
大數據的行業應用是大數據產生價值的關鍵。我們經常提到的Hadoop、Spark等各種系統是數據基礎設施,各個行業利用這些基礎設施存儲和積累了很多數據。對于企業來說積累這些數據的目的就是要產生商業價值,那么從存儲在Hadoop等系統里的數據到商業價值的轉換就是各個行業的Data Scientist所需要探索的,而且這個變現或者價值實現點就是在大數據時代一個行業的核心和關鍵。我認為行業大數據重點在于用大數據的方法把握住這個行業的信息制高點和核心問題。
3.行業大數據的實施,您認為技術難點在哪里?
行業大數據的實施目前的難點在于人才的缺乏。行業大數據的實施需要的人才要求對所在的行業領域知識有所了解和涉獵,掌握數據化的思考問題的思維和方法,會用統計、計算機等系統和工具解決問題。所以本質上行業大數據對人才的需求是復合型的,而且對經驗的要求比較高。對于這樣一個比較新的領域來說,市場上對于這方面的人才還是相當缺乏的。
4. 請分享一個您參與的傳統企業大數據項目。這個項目大致分幾個階段?
我目前主要還是以互聯網企業的大數據項目經驗為主
5. 大數據項目的實施,對已經存在的業務分析架構,會帶來怎樣的影響?
大數據項目的實施,對已經存在的業務分析架構產生的影響還是比較大的。這個也是傳統企業利用大數據的主要的困難所在。一個是既有IT基礎設施不能適應大數據時代的分析和挖掘的需求,另外就是既有的分析師還保持著傳統的分析的思路。可以舉幾個例子簡單說明下這個不同,過去的企業的CRM系統只能記錄下用戶的交易信息,雖然交易信息是用戶的最重要的行為,但是影響用戶產生一次交易行為所涉及到的信息非常多,例如用戶瀏覽了什么、篩選了哪些類型的商品、搜索過什么、收藏過哪些商品等等。所以在互聯網上可以記錄的用戶的行為非常廣泛,這些數據對于企業實現商業價值也有非常大的影響,所以對于數據基礎設施的建設也提出了新的挑戰,很多傳統的系統和軟件架構已經不能滿足新的業務需求,對于大多數企業構建大數據基礎設施來說開源的Hadoop生態系統是一個不錯的選擇。
6.大數據應用工具的大量出現,會取代數據分析人員的位置嗎?
大數據應用工具的大量出現不會取代數據分析人員,而且對數據分析人員提出了更新的需求和挑戰。需要數據分析人員使用這些工具結合業務思考實現商業價值,這個也就是我們經常提到的Data Scientist的作用。工具和分析師的作用是相輔相成的,使用大數據的思維解決這些商業問題是與具體的行業有緊密聯系的,而工具是沒有特別多的行業屬性的,所以就需要分析師/數據科學家做好這個橋梁工作,把枯燥的數據和計算機工具利用起來,結合行業規則和業務特點實現商業價值。
7.數據是傳統企業最核心的資產。我們在大數據的分布式處理方式下,該如何保證數據的安全性和完整性?
數據的安全性和完整性是目前許多傳統企業使用大數據的主要擔憂點。傳統行業普遍對數據安全性要求比較高,例如金融、電信等領域,所以這些領域對大數據系統和基礎設施提出的要求也比較高。在開源Hadoop社區也在不斷完善和安全相關的一些feature和組件。例如對HDFS和HBase在安全和權限管理方面的不斷增強,Cloudera開源的Sentry提供了豐富的安全、權限管理和認證機制等方面的特征,這些都為企業使用Hadoop生態系統作為大數據基礎設施掃清了障礙。
8.在51CTO舉辦的WOT軟件技術峰會上,會有大數據專場培訓。這里面會涉及哪些方面的內容?這些培訓適合哪些技術人員?
這個培訓主要涉及到如何用大數據的方法解決實際商業社會的問題,是通過一個電子商務用戶標簽系統的案例給大家展開的。主要涉及到一些數據挖掘和機器學習算法、工具、分布式實現,數據團隊的建設與構成,用戶數據建模,以及一些相關的案例。這些案例相對比較基礎,但是在很多行業又比較常見,希望能夠對大家的行業和業務中應用大數據有所幫助。