張亞勤:云和大數(shù)據(jù)有望催生顛覆式創(chuàng)新
微軟全球資深副總裁,微軟(中國)有限公司董事長張亞勤20日發(fā)表博文“云和大數(shù)據(jù)有望催生顛覆式創(chuàng)新”,文章提出,云計算和大數(shù)據(jù)的結合,將對今后的政治、經濟、科技、民生產生難于估量的影響。無論是做硬件、做平臺,還是做應用、做服務,歸根結底都是以數(shù)據(jù)為核心、以數(shù)據(jù)為動力,來提升產品對用戶的引力、強化企業(yè)競爭力、創(chuàng)造新的商業(yè)機遇。全文如下:
2008年9月-2009年7月,我曾利用業(yè)余時間,將自己對云計算的現(xiàn)實與未來的思考總結寫成了《云計算三部曲》。那時,云計算對許多人來說還是新鮮和深奧的概念;而今,云已是觸手可及。個人用戶將文檔、照片、視頻、游戲存檔記錄上傳至云中永久保存,企業(yè)客戶根據(jù)自身需求,可以搭建自己的私有云,或托管、或租用公有云上的IT資源與服務,這些都已不是新鮮事。去年11月,我們宣布將Windows Azure平臺帶入中國,也意味著公有云已成為主流服務。作為云計算的殺手級應用,“大數(shù)據(jù)”近來又引發(fā)了不少行業(yè)人士的關注和研討,此文將重點談談大數(shù)據(jù)與云的關系,以及二者的結合,將對科技和商業(yè)生態(tài)產生怎樣的影響。
三大平臺之爭與大數(shù)據(jù)
三年前,我首次提出了“三大平臺之爭“,這是一場注定要曠日持久的爭奪戰(zhàn)。如今,三大平臺之爭也進入了新的階段。
第一個平臺是云。由于云計算基礎設施建設需要巨大的資金投入、長時間、大范圍的部署和持續(xù)的更新維護,有足夠的資源、實力去構建大規(guī)模云計算平臺的企業(yè)并不多。所以當時我說,縱觀全球,也不會有太多的公司有資格成為云平臺的掌控者,如今看來,亞馬遜、微軟、谷歌、Rackspace等少數(shù)公司位于第一軍團。
我們正式發(fā)布Windows Azure平臺是在2010年初。它整合了微軟在云計算領域的經驗積淀、創(chuàng)新能量和生態(tài)系統(tǒng)的傳統(tǒng)優(yōu)勢,三年來發(fā)展迅猛。隨著2012年9月,微軟云操作系統(tǒng)(包括Windows Server,Windows Azure和System Center)的正式發(fā)布,以及11月微軟與上海市政府、世紀互聯(lián)達成合作,宣布將Windows Azure平臺和Office365服務引入中國,標志著微軟在中國的云計算實踐進入了全新的階段。
第二個平臺是智能終端,其本質是iOS、Android和Windows之爭。2010年,“移動三國”的競爭才剛開始。轉眼間三年過去了,戰(zhàn)況是越來越激烈,而且這場戰(zhàn)役還會持續(xù)很久。蘋果、Google、微軟都在設法強化自身的生態(tài)系統(tǒng),微軟最近幾個月,陸續(xù)宣布了Windows8、Windows Phone 8等一系列新終端平臺,目前的市場反響表明,微軟的轉型是基本成功的。
更為重要的是,除了PC、平板電腦、智能手機、游戲主機等常見的計算終端之外,微軟早已著眼于在更廣闊的、泛在互連的智能設備布局,比如智能汽車、智能電視、工業(yè)設備和手持設備等。11月宣布的Windows Embedded8標準版預覽,支持觸摸及手勢交互,讓數(shù)以百億計的新機器與傳統(tǒng)的IT設備和網絡連接到一起。而從2012和2013年的CES展看,智能汽車會越來越熱,直至普及。
第三個平臺是凌駕于云和端之上的,反映真實關系的社會化商務和社交平臺。永不中斷的云服務和彼此連接的人群與海量設備,帶來的最大機會在于如何以人和數(shù)據(jù)為中心,發(fā)展出反映真實世界中人與人、人與機器、機器與機器關系的社會化網絡,并在其上誕生消弭真實與虛擬界限、更加人性化、交互更自然的商務和社交平臺,以及應用。我們看到,將現(xiàn)實社會關系數(shù)字化、網絡化、商業(yè)化的嘗試早已開始。但迄今為止,現(xiàn)實世界數(shù)字化的程度還不夠,真正超越國別、種族和文化壁壘的社會化網絡的平臺仍未建成,這也正是中國IT產業(yè)的重大機遇。
顯然,三大平臺里,云是前提,是基礎。過去我講過很多次,云計算其實在計算量越來越大、數(shù)據(jù)越來越多、越來越動態(tài)、越來越實時、越來越需要結構化的產業(yè)背景下被催生出來的一種基礎架構和商業(yè)模式。無論是云計算本身、或是智能終端,還是凌駕于云和端之上的,基于社會化網絡的平臺和應用,都會讓數(shù)以百億計的機器、企業(yè)、個人隨時隨地都在獲取和產生新的數(shù)據(jù),即使是在摩爾定律的支撐下,計算設備硬件性能進化的速度也早已趕不上數(shù)據(jù)增長的速度,并且這一問題會日漸嚴峻——這樣的背景下,只有云才能解決“賦予數(shù)據(jù)以更大價值”的問題。這也就引出了新的話題,也是最近這段時間產業(yè)和社會都非常關注的“大數(shù)據(jù)”的話題。 #p#
“大數(shù)據(jù)“的崛起
如今,大數(shù)據(jù)的重要性越來越明顯,但就和云計算一樣,它也不是一個從天而降的新概念,而是在三個主要因素的驅動下,逐步成長成熟的。
第一個驅動力,就是業(yè)界常說的大數(shù)據(jù)的三個V(Volume, Variety, Velocity),而這三個V可以有多種解讀。
首先來看看第一個V,巨大的數(shù)據(jù)量與數(shù)據(jù)完整性。IT業(yè)界所指的數(shù)據(jù),誕生不過60多年。而一直到PC普及到千家萬戶之前,由于存儲、計算和分析工具的技術和成本限制,許多自然界和人類社會值得記錄的信號,并未形成數(shù)據(jù)——幾十年前,氣象、地質、石油物探、出版業(yè)、媒體業(yè)和影視業(yè)是大量、持續(xù)產出信號的行業(yè),但那時90%以上采用的是存儲模擬信號,難以通過計算設備和軟件進行直接分析。那些擁有大量資金和人才的政府和企業(yè),也只能把少量最關鍵的信號,進行抽取、轉換、裝載到數(shù)據(jù)庫中。
值得注意的是,業(yè)界對達到怎樣的數(shù)量級才算是大數(shù)據(jù)并無定論,其實在很多行業(yè)的應用場景里,數(shù)據(jù)集本身的大小并不是最重要的,是否完整才最重要。
第二個V,在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內在關聯(lián)。互聯(lián)網時代,各種設備通過TCP/IP網絡連成了一個整體。進入Web2.0時代,PC用戶不單單可以通過網絡獲取信息,還成為了信息的制造者和傳播者。這個階段,不僅是數(shù)據(jù)量開始了爆炸式增長,數(shù)據(jù)種類也開始變得繁多——從技術角度看,可以稱之為結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)和流式數(shù)據(jù)。我記得2005年,微軟亞洲研究院一年一度的“21世紀的計算”大會將主題設定為“Data Centric Computing”,也就是“以數(shù)據(jù)為中心的計算”,那時我們就已建立了這樣的認知:價值來自于數(shù)據(jù),或者說,數(shù)據(jù)一直都是有價值的商業(yè)資產——此前,人們往往過于重視“計算和存儲性能的提升”;而從那時起,我們就已更關注“數(shù)據(jù)分析和處理的效率”——對海量數(shù)據(jù)進行分析、處理和集成,找出原本看來毫無關系的那些數(shù)據(jù)的“關聯(lián)性”,把似乎沒有用的數(shù)據(jù)變成有用的信息,以支持我們做出的判斷。
第三個V,可以理解為更快地滿足實時性需求。如今,通過各種有線和無線電網絡,人和人、人和各種機器、機器和機器之間無處不在的連接,這些連接不可避免地帶來數(shù)據(jù)交換,而數(shù)據(jù)交換的關鍵是降低延遲——要解決數(shù)據(jù)產生、傳輸、處理、存儲、抽取、分析、可視化等各個環(huán)節(jié)帶來的延時,以近乎實時(這意味著小于250毫秒)的方式呈獻給用戶。
如今,數(shù)據(jù)的實時化需求越來越清晰。用戶想駕車去吃飯,先用地圖應用查詢餐廳的位置、預計行車路線的擁堵情況、停車場信息甚至是其他用戶對餐廳的評論。吃飯的過程中,他會用手機拍攝食物的照片,編輯簡短的評論,發(fā)布到微博上,還可以用LBS應用查找在同一間餐廳吃飯的人,看有沒有好友在附近……
第二個驅動力,是云計算的普及和成為主流。經常有一些朋友會問我說,云計算和大數(shù)據(jù)到底有什么區(qū)別?前兩年大家都在講云計算,現(xiàn)在怎么又變成大數(shù)據(jù)了?其實,云計算和大數(shù)據(jù)是一個硬幣的兩面,云計算是大數(shù)據(jù)的IT基礎,而大數(shù)據(jù)是云計算的一個殺手級應用。由于云計算的普及和成為主流,讓上述三個V不再成為挑戰(zhàn),反而成為大數(shù)據(jù)成長的驅動力。另一方面由于數(shù)據(jù)越來越多、越來越復雜、越來越實時,這就更加需要云計算去處理,所以二者之間是相輔相成的。舉例而言,30年前存儲1TB數(shù)據(jù)的成本大約是16億美元,如今存儲到云上只需不到100美元;但存儲下來的數(shù)據(jù),如果不以云計算進行挖掘和分析,就只是僵死的數(shù)據(jù),沒有太大價值。
第三個驅動力,是人工智能、機器學習和數(shù)據(jù)挖掘等技術的迅速發(fā)展。在這樣的背景下,微軟已經可以為用戶提供三個層次的端到端大數(shù)據(jù)解決方案——其一是數(shù)據(jù)管理,即如何獲取、存儲和保護數(shù)據(jù);其二是數(shù)據(jù)豐富,即如何清洗、發(fā)現(xiàn)不同數(shù)據(jù)間的數(shù)據(jù)相關性;其三是,數(shù)據(jù)洞察力,即通過分析、呈現(xiàn)與決策工具,獲得洞察力,并最終通過付諸行動,產生價值。
通俗的說,就是將信號轉化為數(shù)據(jù),將數(shù)據(jù)分析為信息,將信息提煉為知識,以知識促成決策和行動。歸根到底,大數(shù)據(jù)的最終意義在于獲得洞察力和價值,這也正是大數(shù)據(jù)的第四個V(Value),這個V比前面的三個V都更重要。 #p#
云和大數(shù)據(jù)重塑科技和商業(yè)生態(tài)
不太為人所知的是,云計算和大數(shù)據(jù)的結合,最先影響到的是科學研究界。
2007年1月,我在微軟的同事、也是我非常尊敬的一位科學家吉姆·格雷(Jim Gray)在計算機科學與電信委員會上的一次演講中描繪了“科學研究的第四范式”的圖景。所謂“第四范式”是指基于數(shù)據(jù)密集型計算的科學研究——吉姆·格雷呼吁資助開發(fā)用戶數(shù)據(jù)采集、管理和分析的工具,呼吁資助一個交流與發(fā)布的基礎設施。在他的設想中,數(shù)據(jù)密集型科學由三個基本活動組成:采集、管理和分析。數(shù)據(jù)的源頭是各種不同規(guī)模和屬性的國際科學聯(lián)盟、實驗室甚至于個人生活,需要創(chuàng)建一系列通用工具來支持從數(shù)據(jù)采集、驗證、管理到分析、存儲的整個流程,而數(shù)據(jù)分析則覆蓋整個工作流程的所有環(huán)節(jié),包括建立數(shù)據(jù)庫、建模和分析、數(shù)據(jù)可視化等等。吉姆·格雷的最后一次演講體現(xiàn)了這位圖靈獎大師的遠見和雄心。
在商業(yè)領域,大數(shù)據(jù)具備極大的想象空間。
上個世紀七十年代,紐約的治安狀況很糟糕。一位名叫杰克·邁普(Jack Maple)的年輕警察根據(jù)個人警務經驗,發(fā)明了一種名為“未來圖表”(Charts of the future)的犯罪預測方法論,可以根據(jù)過往搶劫案的記錄數(shù)據(jù)來推測新案件可能發(fā)生的時間與地點。這種方法真的有效,1994年,新上任的紐約市警察局局長開發(fā)了“未來圖表”的電子版,將之更名為“CompStat”,推廣至全市的警務系統(tǒng)。CompStat的技術核心是犯罪測繪系統(tǒng)(Crime Mapping System)和數(shù)據(jù)庫采集系統(tǒng)(Database Collection System),而微軟的Microsoft MapPoint、Access、Excel等產品為兩個系統(tǒng)提供了堅實的支撐——基于大量的數(shù)據(jù)采擷、挖掘和分析工作,紐約警察局嘗試對歷史上犯罪分子的行為規(guī)律進行歸納和總結,并有效地改善了城市的治安。數(shù)據(jù)顯示,在CompStat得到推廣應用后,1995年,紐約的兇殺案發(fā)生率降低了約25%,車輛盜竊案發(fā)生率降低了約24%,而且這些數(shù)字還隨著IT軟硬件技術的持續(xù)更新和CompStat系統(tǒng)的不斷完善而逐年下降。
未來,透過技術手段完全遏制犯罪行為,讓每一個城市和地區(qū)的居民時時刻刻都安全無虞——這或許不是夢想。2012年8月,紐約市長邁克爾·布隆伯格(Michael Bloomberg)親手揭開了紐約警察局與微軟攜手開發(fā)的城域感知系統(tǒng)(DAS,Domain Awareness System)的面紗。該系統(tǒng)將覆蓋整個紐約市的3000多個監(jiān)控攝像頭、2600多枚輻射探測器、幾百個車牌信息讀取裝置所收集的信息匯總到警方數(shù)據(jù)庫中,可結合探測數(shù)據(jù)、實時影像、911報警電話和警方積累的罪案歷史檔案,幫助警方更準確地偵測并鎖定即將發(fā)生的犯罪活動及嫌疑人。
對商業(yè)競爭的參與者們來說,大數(shù)據(jù)意味著激動人心的業(yè)務與服務創(chuàng)新機會。零售連鎖企業(yè)、電商業(yè)巨頭都已在大數(shù)據(jù)挖掘與營銷創(chuàng)新方面有著很多的成功案例,它們都是商業(yè)嗅覺極其敏銳、敢于投資未來的公司,也因此獲得了豐厚的回報。
而對于那些擁有行業(yè)經驗,并熟練掌握云計算開發(fā)和應用技能的小型企業(yè),尤其是初創(chuàng)企業(yè)來說,則更是意義非凡。最近幾年,我們看到的一些明星初創(chuàng)公司,比如Cloudera, Splunk, Klout, TellApart等,人員規(guī)模只在數(shù)十人,但對某個行業(yè)擁有深厚知識,并能通過云和大數(shù)據(jù)的技術手段,快速解決該行業(yè)的共性需求和痛點——在未來數(shù)年,這樣的“小而精”、“快而準”企業(yè)會越來越多,并做出有可能改變世界的顛覆性產品。很高興看到,在北京中關村,在微軟的云加速器二期,也有類似的初創(chuàng)企業(yè)加入,和硅谷、海法的創(chuàng)業(yè)者們一起,把握住了時代的脈搏。
總而言之,云計算和大數(shù)據(jù)的結合,將對今后的政治、經濟、科技、民生產生難于估量的影響。無論是做硬件、做平臺,還是做應用、做服務,歸根結底都是以數(shù)據(jù)為核心、以數(shù)據(jù)為動力,來提升產品對用戶的引力、強化企業(yè)競爭力、創(chuàng)造新的商業(yè)機遇。數(shù)據(jù)已經被認為是寶貴資源,任何一家有雄心、渴望獲取洞察力的企業(yè),都應及早制定大數(shù)據(jù)戰(zhàn)略和方案。否則,所有的機會將被“數(shù)據(jù)鴻溝”所延宕。