WOT講師董乃文:微軟提供的那些大數據服務與技術
原創在當今的互聯網世界大數據已不再是陌生的詞匯,越來越的企業正想法設法的從海量的數據中獲取業務洞察力,這些數據來自企業內部、社交網絡等多種渠道。目前各大互聯網巨頭也已踏入大數據領域,微軟大數據自不例外。11月28日-29日,在【WOT2015"互聯網+"時代大數據技術峰會】上,51CTO特邀來自微軟(中國)有限公司開發工具及平臺事業部資深技術專家董乃文將分享微軟針對大數據應用所提供的關鍵技術,深入剖析如何進行優化以獲得性能的顯著提升,幫助大家快速、高效地打造端到端的大數據創新應用,全面助力商業創新。大會前夕,51CTO記者對董乃文進行了采訪。
【WOT2015"互聯網+"時代大數據技術峰會】特邀嘉賓 董乃文
董乃文,微軟(中國)有限公司開發工具及平臺事業部資深技術專家、平臺戰略顧問。他具有20多年的計算機和行業工作經驗,參加多個云計算、大數據、SOA等國家技術標準的相關工作,積極推動企業管理、物聯網、制造業、零售業等領域的技術合作與創新。
在加入微軟之前,董乃文主要從事企業管理軟件、ERP軟件、電子政務等領域軟件的R&D工作。加入微軟開發工具與平臺事業部后,一方面緊密追蹤最新的云計算/大數據、數據庫、移動設備、物聯網、開發工具等新技術,另一方面有了一個更廣泛的和眾多行業領域的合作伙伴,特別是ISV/CSV等合作伙伴的緊密合作的平臺,幫助客戶做云計算、大數據、物聯網等方面的戰略及技術遷移,共同打造“云優先、移動優先”的新應用。
微軟與大數據
董乃文表示,微軟一直在領導著云計算、大數據、物聯網等方面的技術發展。
首先,大數據和云計算平臺的結合,特別是和Azure公有云平臺的結合,以及大數據跨公有云-私有云的混合部署,為大數據的生根落地提供了堅實的基礎設施平臺;
大數據和物聯網、社交媒體、B2B/B2C應用等結合,為廣大行業的創新變革提供了巨大的機會,微軟為這些行業領域更是提供了豐富的端到端的應用,從移動設備(手機、平板等)、物聯網設備,到云平臺,到大數據分析,到實時展現、BI分析等,幫助大家打通大數據與行業結合的任督二脈;
大數據和機器學習的結合,針對大數據的更深入、更智能的分析,微軟提供了機器學習(ML)的強大支持,包括了像Azure上的ML服務,還有前段時間大家關注的牛津計劃(Project Oxford)提供的面部識別技術,現在不僅僅可以通過面部照片判斷年齡,現在還可以分析人的表情,例如是開心、驚訝等,此外還有Cortana語音識別及控制、物聯網機器學習等大量的新技術,希望能夠對大家有所幫助。
靈活整合SQL和NoSQL數據 挖掘數據價值
近年,隨著社交軟件、物聯網、移動等應用的發展,大量的新型數據在產生,例如音頻、視頻、地理信息、日志信息、設備信息等。面對高容量、高速度、數據類型繁多的大數據,傳統的結構化的技術已經很難處理這些數據。董乃文表示,SQL和NoSQL數據庫技術都有其相應的應用場景及實現目標,他們之間的關系不是此消彼長的,而是互相促進的。這些新型數據的處理與關系型數據庫的技術有不少區別,例如數據一致性、完整性等。
那么,微軟是如何快速有效的對這些數據進行挖掘處理,減少運營成本的?如何靈活整合SQL和NoSQL數據?
微軟提供了全面的數據服務,既包括SQL Server數據庫,也包括對眾多NoSQL數據的支持,例如Key-value、document、BLOB等數據的支持。此外,還包括了search等增值的數據服務。
對于SQL和NoSQL數據靈活整合,董乃文建議大家分別采用冷數據(Cold Data)、熱數據(Warm Data)的策略,例如很多原始的NoSQL數據,數據巨大,可以作為冷數據;而經過處理后,一些更小規模的SQL、NoSQL數據庫就可以作為熱數據,作為實時儀表盤(Dashboard)、商業智能(BI)等分析的數據庫;還可以與業務、應用系統相結合,提供推薦引擎、在線廣告、實時控制等應用的數據庫。此外,在需要的時候,還可以通過機器學習(ML),對冷數據進行進一步的探索,挖掘更多的數據價值。冷數據和熱數據的結合,既可以降低數據存儲、處理的成本,又可以提高業務應用系統對時效性、性能的高要求,更好地提供數據資產的ROI。
微軟針對大數據應用為用戶提供了哪些關鍵技術?
目前,在基礎設施方面,微軟提供了云計算平臺,既包括了Azure公有云平臺,也提供了便于搭建混合云的Windows Server / Hyper-V平臺。將大數據與云計算結合是真正發揮大數據功效的首要工作,基礎打得牢,才能跑得快、跑得好、跑得贏。
在云平臺之上,可以為用戶提供了多種的技術選擇支持,例如,用戶可以采用IaaS方案,自己搭建Hadoop虛擬機(VM)和群集(Cluster),目前有很多伙伴,例如Cloudera、Hortonworks等都提供了經過優化的群集、虛擬機鏡像,基本上可以達到“一鍵創建”的程度,而且可以通過API、PowerShell腳本等方式進行自動化監控、優化,非常方便而使用。
另外,微軟也提供了PaaS方案,目前提供了HDInsight的大數據服務,這個就更簡便了,用戶不需要關心底層的虛擬機VM等繁瑣細節,直接創建實例,定義好節點數量,就可以完成的大數據環境的搭建工具。而且,不論是IaaS還是PaaS方案,微軟都提供了最新的技術能力,包括了對Hive、Spark、R、Storm等技術的支持。
此外,微軟還提供了機器學習(ML)、數據工廠(Data Factory)、流分析(Stream Analytics)、PowerBI、IOT Hub/消息中心(Event Hub)等服務,可以方便用戶打造端到端的大數據服務。當然,還有很多新的服務在路上,例如Data Lake等都已經進入預覽(Preview)階段整裝待發,這些都是非常讓人興奮、值得期待的。
關于大數據的安全和隱私問題
對于大數據的安全和隱私問題,互聯網巨頭微軟是如何處理的呢?董乃文表示,從大數據所基于的云平臺角度來講,微軟一直將安全性和隱私作為頭等優先的大事來考慮。微軟利用在構建企業軟件和運行多個全球最大在線服務方面數十年的豐富經驗,創建可靠的安全技術和做法,幫助確保基礎設施可防御攻擊,保護用戶對云環境及資源的訪問,并通過加密通信、威脅管理等來保障客戶數據的安全。
此外微軟始終是保護客戶隱私的領導者,微軟對隱私和數據保護的方法根植于對實現企業擁有對收集、使用和分布其信息具有充分控制的承諾,已歷經時間驗 證。目前微軟已實現透明的隱私做法,為客戶提供有價值的隱私選擇,并負責地管理存儲和處理的數據。微軟已采用全球首個云隱私行業標準:ISO/IEC 27018。此外,微軟還接受嚴苛的第三方審核(如英國標準協會等)來驗證是否遵循嚴格的安全控制標準。
從底層的技術角度來講,有些新的、讓人興奮的技術在微軟新的數據服務中不斷推出,例如,透明數據加密技術,可以實現數據端到端的透明加密,即使某些 數據被截取,甚至服務器端密鑰被竊取,都無法解密而獲得原始數據;動態數據掩碼技術,對于一些敏感的數據,例如姓名、身份證號碼、郵箱地址、手機號碼、網 銀賬戶等,進行掩碼處理,例如“139***1234”等,這些對于用戶數據的隱私保護,提供了強大的技術保障。
既懂大數據的技術又懂得產生這些數據的業務的人才最難得
在很多活動、研討中,大家都在說“數據科學家(Data Scientist)”這個嶄露頭角的職業。從最近IT業招聘的Top 10~20的職位,我們可以看出各行業用戶、各開發商對這些人才非常的渴求。大數據挖掘分析人員需要具備的哪些能力?董乃文表示:“回歸本源,不外乎還是‘數據’+‘計算’,但獲取和處理數據是一回事,而如何理解這些數據、挖掘這些數據的價值則有可能是更根本的事情。某種程度上講,既懂大數據的技術,又懂得產生這些數據的業務,這樣的人才是最難得的人才。”
大數據行業的現狀與未來
談到大數據行業的現狀與未來,董乃文認為:“用‘方興未艾’來描述目前的大數據領域的發展可能是比較貼切的。未來,在數據云化、開放性數據共享、開放性云數據服務及SLA保證、行業數據鏈等方面的實質性進展,將真正有益于整體大數據產業的發展,也能最終讓大數據與各行業深度融合,不斷推動行業和商業創新。此外,值得特別關注的,還有機器學習等深度的數據挖掘,及基于此的創新型應用,新的、讓人耳目一新的新應用將不斷推出,行業創新將不斷涌現。“
WOT大數據技術峰會上的分享內容
在11月28-29日由51CTO主辦位于深圳的【WOT2015“互聯網+”時代大數據技術峰會】中董乃文將分享微軟針對大數據應用所提供的關鍵技術,深入剖析如何進行優化以獲得性能的顯著提升,幫助大家快速、高效地打造端到端的大數據創新應用,全面助力商業創新。
51CTO主辦的高端技術峰會【WOT2015“互聯網+”時代大數據技術峰會】將于11月28日-29日在深圳盛大揭幕,42位業內重量級嘉賓匯聚,重磅解析大數據技術的點睛應用。福利大放送,主辦方將邀請更多講師來到“WOT講師專訪間”,深度解析技術干貨。
- WOT講師覃超:前Facebook工程師問你,增長用戶非要燒錢?
- WOT講師管理心理學博士于際敬:大數據時代的“心”發現
- WOT講師劉黎春:互聯網征信是新藍海
- WOT講師馮揚:體系變化與用戶建模角度探索微博推薦
- WOT講師張溪夢:拿什么拯救你,疲于污水處理的數據分析師
- WOT講師手淘技術專家陳武:手淘億級UV背后的大數據采集體系
- WOT講師任化偉:大數據技術讓 O2O 基礎信息更“靠譜”
- 如何將 Google 神秘的數據中心管理系統搬回家
- WOT講師楊德升:程序員創業都需要什么
- WOT講師錢承君:大數據帶給百度測試團隊的發展新探索
- WOT講師劉鵬:大數據應該指導機器而不是人的決策