數據科學家正在崛起
美國2012總統大選是奧巴馬的勝利,但實際上也是統計學家的勝利。奧巴馬當選之夜,我看見推特上有一條消息被瘋狂轉載:
NATE SILVER ELECTED 44TH PRESIDENT OF UNITED STATES
當然這是一句玩笑話,但Nate Silver是誰?他號稱“競選預測之神諭”:2008年的總統大選他預測對了最終結果,而且美國50州的投票結果他預測對了49個;今年的大選他又預測對了,并且是50州全對。Silver是一名統計學家,畢業于芝加哥大學,隨后在畢馬威會計師事務所“度過了令自己后悔的四年時間”(不喜歡那里的工作),后來轉向預測棒球選手的成績,再后來轉向政治方面的數據分析和預測。總統大選的預測是一件噪聲很大的工作,各家有各家的預測和分析,各種突發事件可能會導致某位候選人的支持短期內大幅變動。Silver的工作就像機器學習中的“集成學習”(他自己的描述是“貝葉斯統計”,用自己的先驗信息和數據得到后驗),集合眾多民意調查結果,根據自己的經驗判斷去平均它們(具體過程我不清楚)。
我想說的不是這個預測本身,而是我所感覺到的統計學家的變化。換個時髦的詞,叫數據科學家。他們和具體的行業緊密相聯,有扎實的統計基礎,也有豐富的行業經驗。不僅如此,大家都會玩編程、做數據可視化。看看Silver在紐約時報的博客就有感覺了。
數據科學家正在“入侵”一些我們以前不能想象的行業,例如總統競選。除了Silver和其他一大批統計學家做預測之外,奧巴馬還有一個數據分析部門,利用各種預測建模和數據挖掘手段來提高奧巴馬連任總統的概率;例如這里有他們一則招聘廣告,里面提到了R、MySQL、Python等工具。我再給自己無恥地打一個廣告:今天我在推特上看見這個部門里的一位數據分析師(見下圖,左為奧巴馬,右為數據分析師)提到了RStudio和我的knitr包,本碼農以后也可以海吹一下牛皮“曾經間接幫助美國總統贏得大選”……
如果你搜索一下數據科學家,你會看到各種光鮮的描述(什么炙手可熱啦性感啦),很多光鮮的東西都是坑,當然不絕對;我上大學時大家都覺得精算師像神一樣,讀(人大)統計的很多同學都是奔精算去的,但我覺得精算就是坑(因為我不喜歡它,再神對我也沒用)。媒體報道容易流于表面,這沒什么奇怪的,數據科學家應該是一類綜合人才,他并不應該只是一門技術的好手,例如純統計。對統計學家來說,貝葉斯誰不會?半夜三點把你叫醒你都能三秒內背出貝葉斯定理,但讓你把貝葉斯統計用到總統競選上,可能就沒多少人做得了這事情了(參見施濤老師的考古文)。一方面,你要會收集數據(各種網絡數據來源需要惡心的清洗整理),另一方面,你要有靠譜的先驗信息(自己的經驗也好,輿情分析也好),可是你只有那個貝葉斯公式,就像賣火柴的小女孩手中的火柴。
我并不想跟傳統學院派打仗,但我認為統計教育需要輕微改革。我們需要增強數據和編程方面的教育,諸如實變函數和測度論之類的數學課對統計專業來說應該改為選修,這并不是說讓學生偷懶,而是學科細化分支的結果:知識在一代一代積累更新,我們不能要求每一代學生都從盤古開天辟地時的知識學起。有志于投身學術研究的可以那樣追根溯源皓首窮經,但統計學家在這個數據時代有更豐富的使命。既然現實中的數據都是惡心得要死(各種不整齊、各種求程序包養),何不在學生時代就先惡心一下?信息時代圖形的重要性也日益突出,但Excel的三維餅圖條形圖只能讓人覺得圖形有個毛線用;各種軟件輸出的靜態圖形在網絡時代只能看不能“摸”,要鼠標干嘛(去看看前文提到的Silver的博客,或者通向白宮的512條路,那些才是網絡時代該有的統計圖形)。
數據科學家的概念在美國提出也就是近兩年的事情,在中國發展如何,我們拭目以待。