一個文科教授眼中的大數據:多、快、糙、耗?
作者:香港城市大學媒體與傳播系互聯網實驗室教授
用現在的網絡語言,我是一個文科男。最近莫言在接受諾貝爾獎時說了一句話,文學不是科學,文學是做無用的東西。我想說明一下文學不等于文科,文科的面更廣,可以進一步分為人文學科和社會科學。社會科學研究歷來與數據打交道,當然以前用的都是小數據,數量少、速度慢、耗工時,但是質量好、也省資源,符合現在的綠色理念。我根據長年研究小數據的經驗出發,講講對大數據的一些看法,其實也是社會科學界的一些共識。讀者看完后也許會同意,文科(或者社會科學)與科學一樣,做的東西也是有用的。
眼下大數據正是大熱。我做了個小統計,SCI/SSCI期刊上已發表270篇有關大數據的研究論文,大部分是最近一兩年內出現的。其中來自計算機科學和工程技術的最多,分別占了27%;其次是醫學生物化學(20%)和基礎研究的數學、物理等(11%);最少的是工商管理(8%)和社會科學(7%)。我涉及的就是***這15%的研究。
我有幸加入了中國計算機學會最近成立的大數據專家委員會,也參與了委員會對大數據研究的一些熱點問題和發展趨勢的評選工作。按照我的理解,最近委員會發布的對大數據研究的八個熱點問題和十大趨勢,應該是全球范圍內至今最系統的一些看法和表述。當然美國和歐洲的各個機構、商業、學術團體都有一些非常精辟、精彩的看法,但從全面性講這可能是***個文件。
大數據這個概念在受到關注的同時,也出現了很多批評的意見。也許大家都見過這一條報道,Sybase的技術總裁Irfan Khan認為,“大數據是一個大謊話”。Sybase是做一家數據庫的公司,長期為企業做BI應用工具。他們一直在做大數據的工作,所以覺得現在講的大數據中的所有東西早已有之,不是什么新的東西。他從這個角度講大數據有點泡沫,有點夸張。當然,我們做實證研究的人并不完全認同他的說法,大數據的宣傳中確實有些地方有點夸大,但沒有夸大到虛假謊言的地步。
什么是大數據?***的定義是4個V: Volume, Velocity, Variety, Value。我覺得這4個V大致與中文里的“多、快、好、省”四個字相對應。這四個字當中,有些是理論上應該實現的、有些實際上已經展現出來了、但有些現在還有差距。大數據是不是真的多、快、好、省?我下面逐一談談。
大數據之“多”
大數據首先就是數據多。這一點大家講的很多,似乎沒有什么分歧。其實不盡然。關鍵在于我們用的是總體數據、樣本數據、還是局部數據。什么是總體數據?大家都明白。最直觀的例子就是每10年中國和其他很多國家都要對全體居民進行人口普查,其結果就是總體數據。中國最近一次的人口普查在2010年,發現有13.8億人。樣本數據也不難理解,通過抽樣獲得。如人口統計,除了每10年的普查,國家人口中心每年還要做千分之二的抽樣調查,用得到的樣本數據來估計每10年兩次人口普查之間中國人口增長的變化。局部數據呢,則是總體數據的一個子集,但不是通過隨機方法從總體中抽出來的,而是用各種便利或現存的方法得到的。局部數據往往比樣本數據大很多,但兩者有嚴格的區別。
這些都是常識。我們來看看大數據的情況。理論上講大數據指的應該就是總體數據。但實際上,由于技術、商業、保密和其它原因,除了少數大數據的原始擁有者(例如淘寶、新浪微博、國家電網、教育網等,他們也許是真正掌握了總體數據的),對于絕大多數的第三方來講,現在大家講的大數據,基本上都不是總體數據而是局部數據。注意,這種局部數據,哪怕占了總體的很大一個百分比(70%、80%),既不是總體數據、也不是抽樣數據。因為哪怕是缺了10%、20%的個案,局部數據跟總體也許就有很大的差別。
三種數據中,如果只考慮質量、不計成本、效率等其它因素,總體數據最靠譜,其次是樣本數據、最不靠譜的是局部數據。我相信很多工科男并不認同***這句話。在我們看來,樣本數據雖然規模要小很多,但實際上在很多情況下比局部數據要更有價值,更可靠。圖一是我做的一個模擬,隨機產生了一萬個數值(藍色),姑且把它當作是總體。我從中隨機抽了500個值(紅色),這個樣本看上去很稀疏(即誤差大、不夠精確),但是它對總體的代表是很好的,即在X和Y軸上的平均數都與總體相同,都在原點上。我再抽8000個值(即總體80%)的局部數據(綠色),人為的設定一些限制,使得正面數值更容易出現,結果緊密的多(即誤差小了),但其平均數往右上方向偏,即精確但不準確。如果依靠局部數據,被局部數據的海量規模所迷惑,其實是害死人的。
歷史上有過很多案例,顯示了局部數據大而無當。社會科學研究方法中,一般都會講到是美國1936年的總統選舉。當時有兩家公司在做選舉預測。一家是《文學摘要》雜志,隨著雜志給讀者寄問卷,回收了250萬份問卷。當時全美選民大概是1億左右,250萬已經是相當大的一個局部數據了。他們經過分析,預測共和黨藍頓比民主黨羅斯福領先14%,以絕對優勢當選。另外有一家是蓋洛普民意測驗中心,那時只是剛起步的一個小公司,用隨機抽樣的方法調查了5萬人,預測將是羅斯福以56%的得票率當選。***選舉結果羅斯福戰勝藍頓,也即蓋洛普的小樣本戰勝了《文學摘要》的大局部數據。因為當時訂購雜志的人更有錢,所以對共和黨更支持。數據只是大而不具有代表性,后果更差。
數據的信息量,一方面是由個案多少決定的,另一方面是由變量(即個案的特征值)多少覺得的。社會科學家們用的數據是個案少、變量多。理想中的大數據,不僅要個案多,而且要變量多。我了解的現實生活中的大數據僅僅是個案多,變量并不多,與我們社會科學家的小數據正好相反。個案多、變量少的數據結構是我們面臨的大數據的基本現實。造成的原因之一就是每人只掌握了一小部分變量,也就是所謂的數據孤島。只有通過分享、整合才能產生多個案、多變量的真正的大數據。#p#
大數據之“快”
現在對大數據的處理方法,以單位速度計,肯定是快。但是,光講效率不講效果是沒有意思的。我還是用社會科學研究作為慢的例子和現在的大數據的一些基本方法來做比較。我們做的都是手工標注,大數據主要是自動分類。從規模上是沒辦法比的,我們一般一個樣本只有幾千個,現在幾百萬是小數據的,成百上千億才是常態的。從準確率來講,人工永遠超過機器的。有人統計過,我自己觀察到,機器學習的準確率平均差不多在80%左右,當然也有些做自然語言處理、人工智能的會說某一個特定的項目能做到90%。但是如果把所有的研究都拿來平均一下,80%也許是比較樂觀的記錄。人工情況下基本能做到90%、95%,一般社會科學的學術期刊不接受準確率低于95%的論文。
另一個問題是你怎么知道準確率?我們的一般方法是對同樣的內容有兩個或者更多的人分別獨立(即背靠背、互不知情)的進行標注,***計算相互的相似度,來估計準確率。而大數據的處理,如果是全自動無監督的學習,其結果的準確率其實是無法知道的。現在大家都在抓網上內容做預測,到底預測準不準,也許永遠是一個未知數。從誤差來講,人工判斷有誤差,但這些誤差都是個人誤差,如果有幾個人同時做的話,其誤差可以互相抵消。機器學習的誤差是系統性的,如果你知道偏在哪兒,可以很容易的就把它改過來,但誤差偏在什么地方一般是不知道。這就是我剛才講的,局部數據問題在系統誤差,到底是往左偏,還是往右偏,偏高了還是偏低了并不知道。所以,按照我們的看法,人工處理的小樣本數據,研究結果是準確的,但是不夠精確,即不夠穩定。機器學習的方法倒過來,因為你有海量的數據,非常精準。其實精準這個詞從英文里面是precision,只有精確的意思而沒有準確(correct或accurate)的意思。精而不準是目前大數據的一個問題。大家很自然的會想到,我們需要把人工標注和自動分類結合起來,做有監督的機器學習。機器學習的質量是由訓練集的質量、訓練集的規模和學習的算法三方面決定的,而這三者的重要性就是按照這個順序排的,最重要的是訓練集的質量,也即人工標注的質量。#p#
大數據之“省”
這里的問題是省了人工,還是省了能源?大數據肯定省了人工,但同時在耗能。這是一個環保的大問題,我不展開講,實際上大數據是驚人的耗電。如果現在才開始規劃,不注意的話,也許幾年以后大數據就成為一個新的污染重工業。我聽說某些地方在建大數據中心,搞幾百萬臺服務器。我們可以想象得到其所耗用的能源和所產生的輻射,是非常可怕的。實際上現在的各種數據每年遞增的速度遠遠超過我們現在存儲能力的遞增速度。在這種情況下,除非我們的存儲材料有突破,不然我們必須要想好一個問題,真的能夠把總體數據保存下來嗎?中國聯通的數據只能保存4個月,然后必須刪除以保存新數據。我認為出路還是在抽樣,把大數據變小。
大數據之“好”
大數據一定比小數據好嗎?這個問題是所有問題的核心,現在還沒有答案的。我認為以下幾個問題值得考慮。***,大數據是好,但是大數據在哪里?如果我們拿不到大數據,就是一個櫥窗里面的蛋糕,只能在外面觀賞。我們可以把大數據分成幾種,小規模、中型規模、巨型規模。小規模的數據非常多,免費就可以得到。中規模數據在大部分情況下也是免費的或者是低成本的。真正巨型規模的大數據其實是得不到的。做應用也好,做工具服務的也好,都必須面對這一現實。
第二是我們真的有處理和分析大數據的能力嗎?我認為現在的大數據分析工具并不發達,現在所用到的絕大部分工具都是用來解決小數據問題的,用來解決常態數據的。對異態數據的統計工具,現在基本上沒有。最近《科學》雜志發表的一篇文章中報告了用于大數據兩元相關分析的一種方法。學過統計的都知道,小數據的兩元相關分析是一百多年前就有了的。也就是說,我們處理大數據的能力還是處在起步的階段,相當于19世紀80年代的小數據水平。當然,我們肯定不需要再用120年的時間才能使大數據分析能力達到今天小數據的水平。但是,我們必須對大數據分析能力的現狀有客觀和足夠的認識。
總之,我對大數據的看法即不是完全樂觀的,也不是完全悲觀的。大數據肯定代表了一個新世紀、新紀元的到來。大數據的潛在價值也是客觀存在的。但是數據的應用、數據的分享,其實還是有很多問題的。數據的存儲與分析,其實還是剛剛開始。現在是商業和社會應用遠遠走在了科學研究的前面。有志于大數據研究的科學家、社會科學家們要努力趕上。