大數據到底怎么影響我們的生活
信息大爆炸的今天,不討論大數據這個話題似乎就是跟不上時代。從醫藥到教育,再到其他各個領域,大數據充斥著現代社會的每個角落。而我們最關心的還是大數據最終將以什么樣的形式,怎么樣影響甚至改變我們的生活。來聽聽四位專家告訴你大數據到底有多少可能。
丹·瓦格納 Dan Wagner
Civis Analytics 的創始人兼首席執行官
你曾經說過,希望用大數據解決全球最大的問題。你最想解決的問題是什么?
我們主要關注兩個領域:教育和健康。在教育領域,我們專注于利用個人層面的數據,幫助客戶發現那些申請和注冊的大學低于其潛能的低收入學生,并幫助這些機構找到適當的方法,讓這些孩子進入與其潛能相匹配的大學。
保險投保也是我們的目標之一,尤其是在《平價醫保法案》剛開始施行的頭幾個月。我們主要致力于與多家機構合作,幫助它們找到沒有醫療保險的民眾,并讓他們加入到醫保計劃中來。這是一項非常艱巨的工作,因為沒有現成的無保險人員名冊。你只能通過統計推斷來完成這項工作。
最值得關注的問題之一是,保險如何從團體保險向個人保險發展,以及保險公司如何學會管理這一風險。我們正同幾家機構合作,利用數據提前發現諸如心血管疾病等個體風險,提前了解病人面臨的風險。
一旦發現有風險,你會增加投保人的保費嗎?
你不能這么做。你只能根據諸如年齡等一系列精簡變量來確定保單價值。因此,你不能根據上述風險來定價,但你需要管理這一風險。
你同奧巴馬競選團隊合作時,大數據發揮了怎樣的作用?
我們帶來的最顯著改變是在媒體方面。具體來說,就是利用尼爾森收視率來追蹤競選廣告的投放和效果。透過收視率數據,你就好像看到了一張人口統計表,能從中了解到觀眾群的構成,例如是西班牙裔,還是女性。
我的做法是,根據我們計算得出的個人可說服得分來定義我們的觀眾。我們將這些數據與機頂盒數據相匹配。由此就能找到每一美元廣告投放能帶來最高可說服觀眾密度的電視欄目。有了這些數據,我們基本就能根據一個單一的標準來決定廣告投放的優先順序。這與人口統計學沒有任何關系。只需明確哪些是我們在個人層面上確定的、要特別針對的觀眾群。這是一項非常艱巨的工作,但從文化角度來看,這種方法很適合我們的競選團隊,因為,奧巴馬競選的典型特征是,選民搖擺不定。
我們應當如何解決數據分析中的安全問題?
你必須非常重視這個問題。很多這類機構在收集信息,但我認為,其中很多機構都沒有意識到什么是最高標準的數據安全操作。我們的很多工作都是在亞馬遜云服務平臺上完成的,這比你內部可能開發的東西要好得多,因為你可以利用亞馬遜提供的很多網絡協議。亞馬遜的云計算服務算是該領域最好的。
大數據熱潮中,我們可能犯的最大錯誤,或可能忽視的最重要問題是什么?
大數據熱潮最令人遺憾的一點是,人們只考慮其過程,而沒有考慮結果。有些時候,這股熱潮有些盲目,在某種意義上,它只是將對數據計算能力增長的信念孤立地看作是一種解決問題的手段。你將如何運用這些未來真的能改善人們生活的數據?這是個大問題。
在日常生活中,你是如何應對信息過載問題的?
作為一個在互聯網相關公司工作的人,我有很多時間是在網上。但我盡量縮短通過各類電子設備進行溝通的時間,并努力確保自己閱讀大量書籍。
埃里克·謝德特 Eric Schadt
伊坎基因組織學和多尺度生物學研究所(Icahn Institute for Genomics and Multiscale Biology)董事
如何證明超級計算在醫學研究中能發揮重要作用?
主要通過兩種途徑。一是管理當下醫學領域產生的諸如 DNA 測序等海量數據。舉例來說,一位癌癥病人的全基因組序列會產生萬億字節之多的數據。想象一下,如果要為數十萬人做基因測序,就會產生千萬億,甚至百億億字節量級的數據。要對這些數據進行管理并加以處理,使之轉化為能被醫界人員所用的信息,就需要超級計算設備和相關的專業知識。
另一個途徑是,利用需要超級計算在短時間內完成的非常復雜的數學算法,根據已經存在的疾病亞型,以及治療該疾病亞型可能的最佳方法建立一個疾病預測模型。
這使醫生在治療中的作用以及病人與醫生間的數據關系發生了怎樣的變化?
發生了根本性的變化。與我們現有方法的不同之處在于,我們更深入地研究個體,而非一個群體。就拿糖尿病來說,目前可能有 100 種不同的糖尿病亞型,而且你和你的鄰居得這種病的原因也各不相同。你可能是因胰腺β細胞功能受損所致;或者你肌肉中的攝取受體不能有效地吸收葡萄糖等等。不同的病因可能需要不同的治療方法。
醫生看到的只是晚期癥狀,但現在透過各類分辨率更高的科技產品他們能看到導致下游結果的上游病因。最近醫生們才看到了這些病因。其中涉及數百萬個變量,這是人腦無法理解的。
您剛才說到的都是數學幫助克服人腦缺陷的方面,這些數學計算程序有哪些缺陷需要人腦的幫助?
我們所做的工作是用一種需要人腦參與的方式來呈現信息,這是一種很棒的模式識別機器。目前在很大程度上人與機器是合作伙伴關系。也許 10 年、20 年以后,諸如 Watson 等計算機將變得非常強大,人的干預會大大降低。但目前還做不到。
很多組織收集的醫學數據只供己用,我們應該對此感到擔憂嗎?
如果我們真的希望對人類健康產生影響,這些數據和模型必須對所有人進行開放。
物理研究領域就有這樣的先例,強子對撞機試驗的全部數據都是對公眾開放的。當然,存在如何保護個人隱私的問題。
可以通過技術解決隱私保護問題嗎?
我們當然可以保護并存儲數據,保護計算機環境的安全,并采取眾多安全協議來確保數據不會陷入危險。但有一點我們很清楚,任何形式的高維數據都無法真正做到匿名。就像照片一樣。你不能指望你的外貌也有隱私,因為人人都能看到你的臉,你不能將它藏起來。我認為 DNA 以及諸如分子尺寸等其他數據最終也將歸入同樣的范疇,原因很簡單,當技術足夠成熟的時候,基因測序會像照相一樣簡單、便宜。
在日常生活中,你是如何應對信息過載問題的?
不能陷在大數據中。我會去玩單板滑雪、騎摩托車,或是做一些能幫助你放松,無需太動腦筋的活動。
安德烈斯·維根 Andreas Weigend
獨立顧問,亞馬遜公司前任首席科學家
你曾經將大數據比作原油。
如果你在后院發現了原油,你的這個發現可能用處不大,因為你需要將原油精煉后才能供人們使用。原始數據也像原油一樣,不是拿來就可使用。亞馬遜和谷歌就是從事數據精煉提取的公司。當然,據我所知,原油和數據兩者之間最大的區別是,數據一時半會兒不會被用光。而至于價格,信息產品和石油產品之間的關系也非常有意思。
原油的大部分好處被你所描述的精煉公司而不是被其用戶獲得。我們怎樣才能保證每個人都能從大數據中獲益?
我認為,在蘋果公司的應用商店發生的一切將會在數據經濟領域再次上演,會有公司以這些數據為“原材料”推出服務。如果成立一個應用商店,而另一家公司使用數據向消費者提供應用并與數據公司共享收入,價值由此產生。
大約 10 年前,你曾擔任亞馬遜首席科學家。目前,世界是否已經完全變樣了?
10 年前,我們已經注意到行業的重點正由算法(意味著你可以從自己所有的數據中獲得任何東西)向僅僅需要獲得更多的原始數據這一方向轉移。所以說,現在的情況與當年完全不同,不過,我們仍然有類似的想法。貝索斯還是貝索斯。
你認為哪些行業守著最豐富的數據金礦卻未找到利用金礦創造價值的方法?
中國有一家公司名叫騰訊,他們推出的微信完全顛覆了中國人的溝通方式。與之相對應的另一家公司是中國電商公司阿里巴巴,該公司了解客戶對哪些商品感興趣,他們在搜索什么商品,以及他們最終買了哪些商品。阿里還清楚客戶是否退貨和有無付款問題等。
這兩家公司均擁有 10 億客戶。它們了解客戶的所有溝通習慣或所有財務交易情況,所以,它們確實大有可為。當然,這也取決于你對哪些行業感興趣。不過,真正的潛力是這兩方面數據的交叉整合。比如,在需要做出信貸決定時,你可以從騰訊了解很多信息。因為,了解到你是否曾經和妓女鬼混或與拉皮條的家伙有過來往,也能多多少少地了解你將來償還貸款的傾向。
在日常生活中,你是如何應對信息過載這一問題的?
我們必須形成一個認知習慣,認識到人們是會錯過一些信息的。如果有人錯過了你的一封電子郵件,請不要生氣。請通過另一個渠道與他們聯絡。
威廉·庫科爾斯基 William Cukierski
Kaggle 公司的數據科學家
效果最好的競賽有哪些?
我最看好的一場競賽叫“找鯨大賽”。競賽中要尋找的鯨是生活在大西洋中的一種瀕危種群。這些搜尋者擁有強大的網絡,不間斷地記錄鯨發出的聲音,他們也擁有自己的算法,且效果非常好。他們說:“要不我們把這些數據交給 Kaggle,看 Kaggle 有沒有更好的解決方案。”他們最后實現了非凡的成果。目前,這些強大的網絡能夠以接近 99% 的準確率來偵測出鯨的聲音。我認為,如果有人坐在紐約的辦公桌前就可以從事與日常工作毫無相干且在萬里之遙的一項工作,并為我們的日常生活帶來巨大好處,這將是一項多么了不起的事情!
你們還在設法利用數據分析來進行癌癥研究。Kaggle 是否組織過很多醫療相關領域的競賽?
Kaggle 尚未在醫療領域涉足過多,主要原因是涉及泄露患者信息這個問題。另一個難題是擁有這些數據的個人和機構把數據囤積了起來,不愿分享。
制藥公司擁有制藥試驗的數據,它們把這些數據壓在了箱底。人們為了數據分享作了一些初步努力,也承諾在這方面展開合作,但結果還是各自都想保留自己手中的數據。從某種程度上說,主要還是擔心隱私保護問題。你可能不會愿意把別人的基因組公開發布,然后大家都看出來這是家住主干道 232 號的薩利·斯密斯(Sally Smith)的基因組。不過,與此同時,這些擔心也有些過度。對于這種問題,人們好像都在玩花招,說什么除非把數據直接交給你,不然你怎么能夠遠距離地利用數據解決問題呢?如果能消除這些顧慮,你就可以取得一些實質性的進展。
你們公司在舉辦人人都可以參與的競賽,而有些占有數據的機構卻牢牢抓著數據不放手。這是否是一個矛盾?
我在日常工作中面臨的最大挑戰之一是說服人們分享數據,并令其確信這么做不會威脅到其機構的生存。
經常情況下,不是說你占有了數據,數據就成為與生俱來的無價之寶,數據是需要挖掘和分析的。如果我們從一個機構拿到了一組數據,并將其公開,問題的解決方式是公開的,這不會產生什么問題,因為沒有其他人有相同的數據,也沒有人會再去獲得并利用這些數據。
你認為,關于大數據的各種說法和觀點,哪方面的失控最嚴重?
我必須糾正一下你的問題,應該是哪些方面沒有失控。在與人們談論大數據時,很難避免失控這個問題,也很難避免其老板的介入,同樣難以獲得老板支持地說“好吧,我們也做大數據吧”。我認為,人們在數據量方面有些失控。所以,經常有人會說,“我們有 10 億兆的數據,我們有百萬兆的數據。”許多問題可以在更小的數據規模上得到解決。比如,用輸送帶來篩選利馬豆。銷售利馬豆的公司希望利用照相機來發現輸送帶上變質的利馬豆。你可以想象,如果你能夠發現一粒棕色利馬豆,你就可以發現所有的棕色利馬豆,而不需天文級別的數據來解決這一問題。我認為,95% 的問題適用于這個模型。剩余 5% 的問題的算法需要大量的數據,提供的數據越多,其方案的效果就越好。Netflix 向用戶推薦電影就是最好的例證。