從《當我們變成一堆數字》談到《大數據時代》
最近IT界把“大數據”從一個普通名詞變成了專有名詞。但是一般人卻分不清“把我們變成一堆數字”和“大數據”之間的關系與差異。所以這篇文章借用這兩本書來介紹這兩個概念。
先談《當我們變成一堆數字》,大家是否注意到?每當我們在谷歌或百度上搜索一個詞匯或一個事件后,你再次上網瀏覽別的網站時,在邊欄或者屏幕上方的橫條上出現的廣告都和我們剛剛搜索的內容相關。比如你搜了一個數碼相機的信息,馬上你就在接下來的瀏覽中發現在屏幕的上方或右方出現的廣告都和數碼相機有關。
除了上網搜索,我們在使用Web郵箱時,也會發生同樣的事。當你發了一個郵件給朋友討論下一個長假到哪個旅游勝地去度假,你會發現下次你再打開郵箱時,旁邊的廣告都和當地度假酒店或往返度假地的機票有關。這些都與一個網絡專有名詞“Cookie”有關。
Cookies是什么意思?字面上Cookies是“小甜餅”,但在網絡世界,Cookies就是服務器暫存放在你的電腦里的資料(.txt格式的文本文件),好讓服務器用來辨認你的計算機。當你在瀏覽網站或發送Web郵件的時候,Web服務器會先送一個小資料放在你的計算機上,Cookies 會幫你在網站上所打的文字或是一些選擇都記錄下來。當下次你再訪問同一個網站,Web服務器會先看看有沒有它上次留下的Cookies資料,有的話,就會依據Cookie里的內容來判斷使用者,送出特定的網頁內容給你。
透過Cookies,我們每個人都被數字化了,我們的個人資料,個人喜好,日常活動范圍,購買偏好,通通以一串數字的形式展現在網絡世界。
也就因為這個Cookies,每當我們在卓越網或當當網購買一本書后(甚至只是在他們網站上瀏覽了幾本書),下次再去他們的網站,網站就會推薦和你上次購買有相關主題的書籍。好像知道你的喜好一樣。
大家若帶著筆記本電腦去國外旅游,當你進了度假村,安頓下來后,打開電腦透過WiFi檢查Web郵箱時(譬如Gmail),往往就會收到一封從Web郵箱服務器發來警告,告訴你的電腦在一個以前沒有出現過的地方登錄了,假如的確是你自己登錄的,那么請操作下列指定的步驟以激活你的郵箱。這又是一個借由Cookies工作的例子。
《當我們變成一堆數字》這本書就是舉了很多這類案例,詳細闡述了網絡怪杰,網絡企業家如何利用從網絡上搜集來的數字化信息,他們還花了很多的精力研究各組數據之間的相關性與因果性。于是創造新的商機,提高社會的效率,或改善我們生活的點點滴滴。
那么“大數據”又是怎么回事呢?
隨著智能手機,平板電腦,還有筆記本電腦的普及,加速了我們“身份的數字化”,在Web服務器面對這樣海量的數據信息時,卻遇上了新難題:處理能力和儲存容量的需求都爆炸性增加。大家還記得嗎?15年前我們PC的硬盤都是200M或500M的容量,但是5年前,PC硬盤都是250G或500G。一個G是1000個M。而現在市場上賣的移動硬盤常常都是幾個T,一個T是多大?是1000個G。但現在Web服務器面對網絡上的大量數據卻需要的儲存量是以P(Peta)為基本單位的。大家應該可以猜到:一個P是1000個T。
以目前的技術水平,很少有單個計算機可以處理這么大的數據量,也很少有單個儲存設備可以有這么大容量。幸虧“云”的概念和技術正好在最近很成熟了,于是利用“云計算”和“云儲存”的海量計算能力和海量儲存能力,網絡怪杰和網絡企業家順利的邁入“大數據時代”!
大數據的開發與應用有著三個特點:
1、數據樣本,不再是抽樣,而就是數據的總體。分析數據是把所有搜集到的數據包括在內。
2、數據不必百分之百地準確,不必剔除特例,而是從“海量”的數據中總結出絕大部分人的共同特性。用“絕大多數的特性”代表“總體的特性”。
3、不再注重數據之間的“因果性”,而只注重于它們之間的“相關性”。
在《大數據時代》中舉了很多實例講解以上的觀點。
1、語言的翻譯:
傳統翻譯軟件是設定了很多的語法規則,用這些僵化的規則拆解每個句子,然后再逐字翻譯生成不同語文的語句。但這往往使翻譯出來的語句非常生硬拗口,甚至錯誤率極高。業界還盛傳一個有關微軟公司“機器翻譯部門”的一個笑話:部門每有一個語言專家辭職,翻譯質量就會提高一些。
谷歌的翻譯軟件卻不是這么做,他們翻譯團隊的成員大多不但不是語文學家,甚至連翻譯成的那種語言都一竅不通。他們都是一些統計學家,從大量的已存的翻譯文章中對比,尋求規律,然后產生翻譯的文字。事實證明雖然網上搜集來的翻譯文章有不少是錯誤的,是低質量的,但由于數據量極大,這些錯誤自然就被忽略了,這種方法的確大大提高了翻譯的質量和準確性。也就是說“不百分之百”精確的大數據用簡單算法比精確的小數據用復雜算法要有效地多!
2、流感的預測
以前衛生單位發布流感成災的信息,往往都是從各大醫院和衛生所搜集來的數據,這個方法的最大缺點是“信息是滯后的”!是“災”已成事實了,衛生單位才警告社會,這時已經有很多人被感染。
又是谷歌提出了不同的預測辦法。他們是以有多少人搜索“咳嗽怎么辦?”或“發燒怎么辦?”來警示流感可能發生了!除了注意到搜索這些詞語的頻率大幅增高外,還可以鎖定是哪個區域的人開始大量搜索這類問題的答案。于是谷歌就能提早告訴大眾有流感開始盛行,而且傳染區是向哪個方向遷移。這個項目使得衛生單位及早研制預防疫苗,及早控制疫情的擴散,大幅降低了流感的傳播。
3、飛機票價高低和多早預購的關系
也許大家會直覺地認為越早買機票就越可以買到較便宜的機票。一家叫Farecast公司的創始人從他的親身經驗啟發了一個新的服務。他發現坐他旁邊的人比他晚好幾天購買機票卻比他的購買價格還低。于是他搜集了所有航空公司的票價與提前訂購時間的數據關系,并建立了數學模型。現在我們任何人可以上到他的網站:farecast.com,輸入你的出發地和目的地,加上你要出發的時間,馬上這個網頁能告訴你是現在就趕快買票還是再等幾天才買。 #p#
由于“大數據”產業的興起,對于數據庫管理有了六個創新的方向:
1、數據的再利用
過去我們搜集到一組市場占有率的排行數據后,一但報告發表了,這組數據就丟棄不用了;一個訂單處理完了,這組數據也就丟棄不用了;我們搜索到一個詞或答案后,這個數據的處理也就終止了。其實這些數據暗藏了用戶的喜好,以及現在流行的趨勢。懂得利用這些數據寶庫的企業就會脫穎而出,掌握無限商機。
最近移動運營商和微信展開“商業角力”,在技術層面也和數據的再利用有間接關系。
普通一個城市通常需要上百個基站來分布完成無線覆蓋。至于大城市就可能需要近千個基站服務區來覆蓋。那么一個手機是如何“被叫”的?總不能一個朋友給你打電話,移動運營商就在全國每個城市的每個服務區尋找你吧?還有若你出國度假了,那系統是怎么找到你的?答案很簡單,每當你開車從一個服務區進入一個新的服務區,或是你下飛機一打開手機電源,手機就會透過信令信道發送一個“我在這里”的信號給基站。所以有電話要找你的時候,系統會優先在這個服務區呼叫你。
微信給運營商產生的困擾是它讓手機也透過信令信道頻繁的發出“我在這里”的信息,它占了“有限、寶貴”信令信道60%的資源,卻給運營商的流量收入貢獻不到10%。所以現在運營商要求微信向他們付資源占用費。
我們先不管“微信事件”,大家想想上面的技術解釋有什么商機?那就是運營商完全掌握用戶“在哪里”的數據呀!我們怎么利用呢?
大家現在在手機上查看地圖時,往往也會顯示出各個道路的交通暢通與否的情況?谷歌地圖是如何做到的?就是利用手機“我在這里”的數據轉換成密集度來決定車流量的!
同樣的,由于我們知道用戶在哪里,我們就能針對不同的用戶推送不同的促銷廣告。這些都是“大數據時代”對數據的再利用。
2、重組數據
在“數據墳墓”中我們還可以挖出歷史數據研究它們的相關性。書中提到丹麥研究了“使用手機”和“得腦癌”是沒有相關性的。但是往往這類正式又嚴謹的“正面”報告得不到媒體的注意。反而任何一個江湖術士做了一個不嚴謹實驗而宣告使用手機會導致腦癌,馬上就會有媒體報道,然后很多“家庭自修成才”的科學家就在郵件或微博上瘋傳。
同樣的美國也有類似的報告。在1988年幾乎沒有手機,在2008年3億人口里面有2.5億手機。根據“美國癌癥協會”的正式統計,各個族裔在1988年時每100萬人里不超過8人得腦癌。那么2008年呢?每百萬人還是不超過8人,甚至好像還有一點兒下降。這又表明了使用手機和是否致癌是兩個不相關事件。但是每隔一陣既有江湖術士聲明他又證明了使用和手機會致癌。
這類大數據的重組開發,一定能幫助我們正確的面對很多無稽之談。
3、可擴展的數據庫利用
大家都聽說過谷歌地圖的街景,它讓我們不只看到傳統地圖,還可以看到具體的街景和附件建筑物的長相。(在港臺街道上你能經常看到有谷歌標識的小車,車頂架著攝像機沿街一路拍攝。)但是谷歌獲取了這些“數據”后絕對不止于展示給網民街景,這些數據還為谷歌下一步的無人駕駛汽車的推出打好了堅實的基礎。
4、數據的折舊值
數據并不是保留越久越好,比如我們看書的興趣會變,所以亞馬遜不能依據我們十年前的購買記錄來推薦我們可能感興趣。但是他們也不能簡單靠著數據年齡來取舍數據,所以決定什么數據需要“折舊”也變成了一個商機。
5、數據廢氣
我們在搜索時,不小心輸入了一個錯誤的關鍵詞,也許搜索網站簡單回復你:找不到相關資料。但是谷歌卻建立了自動反饋機制,它會在網頁上端出現:你是不是要搜索XXXX?經過這個反饋,谷歌不但提供了用戶方便,而且還可持續不斷改進它“校正拼寫”軟件的準確率。
同樣的,聰明的網站會搜集用戶瀏覽時,鼠標停留在哪的時間較長?最頻繁點擊哪個圖標?假若對搜索的結果,用戶通常都不會點擊第8個建議結果,是否網站下次碰到類似的搜索就應把第8條從建議答案中剔除?這些都是在完善大數據管理和應用時呈現給軟件開發者和網絡企業家的新挑戰和新商機。
以往設計網游的大師坐在多個屏幕之間設計游戲,用自己的藝術直覺決定如何改進并推出升級產品。有些時候也會加入一些有限用戶群的反饋。但是在新一代的游戲中,軟件設計師會植入很多監測點,搜集到:用戶什么時候會容易放棄而且不再玩這款游戲了?在哪一關卡會給用戶挫折感而總是升不了級?有了這些“廢氣”反饋機制,就能大大提高游戲受歡迎度。
6、開放數據
FlyOnTime.us這個網站搜集了很多美國航空史上的“正點率”數據和當時的氣象數據。它發現飛機因為大霧而誤點的時間是風雪而延誤時間的兩倍。同時它用這兩組數據幫助乘客預測今天航班延誤的可能性。上述兩組數據都不是該公司自有的,而是兩個官方機構所保存的。將來我們一定還會想到很多類似官方數據庫的有效利用,但這很大程度上取決于政府愿意開放多少數據給大眾。
綜合上面所說的各種應用和未來的創新,可以看出大數據產業包括了三類型的機構:
1、數據搜集者也是擁有者
2、技術分析者
3、數據使用者
在目前發展階段是使用者獲利最多。比如一個普通合格的婦產科醫生,她不必是一位名醫,也不必是一個產前保健專家。只要她能隨手取得“大數據”,照樣可以為孕婦提供最佳的生產和醫療方案。
書中還用電影《點球成金》(Money Ball)解釋了利用“大數據”的實例。這是美國職業棒球界的一個真事故事。由于大陸朋友不太熱衷棒球運動,所以這部電影沒在大陸賣座,但是在臺灣卻是大家非常喜歡的一部電影。
電影描述奧克蘭運動家隊由于對球員薪資的總預算很低,所以雇不起大牌明星球員,未來的賽季前途渺茫。球隊經理暗下決心改造球隊。他不靠球隊智囊團的直覺和球員的身價來挑選優秀的球員,而是在球員過去上場表現的大量數據中挖掘“高上壘率”的潛在明星,并通過軟磨硬泡將他們招致麾下。這個新陣容的球隊在各方壓力和冷嘲熱諷下漸漸打出較好的成績。終于在那個賽季從敬陪末座打到MLB的西部冠軍。從此以后很多球隊也都開始用這種“大數據”的方法決定招攬哪位球員加盟,很多隊伍也因此獲得總決賽的冠軍。
這是一個活生生“大數據使用者”獲得成功的例子。不過當大眾越來越理解“大數據”的重要性時,最終應該是擁有數據的企業才會是最值錢的企業。
也希望大家從這兩本書中得到啟發,打造一個既有益社會又能獲利甚豐的企業。