指引大數(shù)據(jù)未來(lái)發(fā)展方向的九大真理

筆者總會(huì)時(shí)不時(shí)沉浸在對(duì)大數(shù)據(jù)原則的思索當(dāng)中,這里討論的并不是Hadoop與關(guān)系數(shù)據(jù)庫(kù)或者M(jìn)ahout與Weka的對(duì)抗,而是更具根源性的智慧——將數(shù)據(jù)作為“新時(shí)代貨幣”的思維方式。不過(guò)也許將數(shù)據(jù)描述成“新時(shí)代的石油”更加貼近,或者,我們還需要一種新的比喻更全面地詮釋數(shù)據(jù)的價(jià)值與內(nèi)涵。
比喻本身既非事實(shí)也難以證明,但它們確實(shí)能夠創(chuàng)造出指引我們找到真理的話(huà)題。比喻讓復(fù)雜的概念變得更易理解,正如本文中所引用的經(jīng)典語(yǔ)錄——它們有助于解釋大數(shù)據(jù)的各項(xiàng)基本原則。本文將列舉八條與大數(shù)據(jù)密切相關(guān)的真理——大家對(duì)此也許有所耳聞、至少略有耳聞——并按時(shí)間進(jìn)行排序。最后,筆者將做出自己的推測(cè),與各位朋友分享“未來(lái)的真理”。
1. “相關(guān)性并非因果關(guān)系”
這樣的說(shuō)法我們已經(jīng)聽(tīng)過(guò)不止一次。在大學(xué)的哲學(xué)課堂上,我了解到這樣一個(gè)關(guān)于基礎(chǔ)謬論的表述版本,叫作post hoc ergo propter hoc,翻譯過(guò)來(lái)就是“后發(fā)者因之而發(fā)”。聽(tīng)起來(lái)實(shí)在有些隱晦,更直白點(diǎn)解釋?zhuān)褪钦f(shuō)“B事發(fā)生于A事之后,因此B事由A事而起”。
大家可以讀讀O’Reilly Radar的博客。在其中一篇名為《猜測(cè)的隱性成本》的文章中,Alistair Croll指出:“最明顯的相關(guān)性表現(xiàn)在大數(shù)據(jù)的專(zhuān)長(zhǎng)方面……并行計(jì)算、算法的改進(jìn)以及摩爾定律的準(zhǔn)確特性已經(jīng)大大降低了對(duì)數(shù)據(jù)集進(jìn)行分析的成本,”由此衍生出一個(gè)“由數(shù)據(jù)驅(qū)動(dòng)的社會(huì),既聰明又愚蠢。”最終結(jié)論?保持聰明的特性,尊重相關(guān)性與因果關(guān)系之間的差別。模式只是表現(xiàn)、并非結(jié)論。
2. “所有模型都是錯(cuò)誤的,但其中一些確實(shí)管用”
意外事件統(tǒng)計(jì)學(xué)家George E.P.Box在他1987年編撰的教科書(shū)《實(shí)證模型構(gòu)建與響應(yīng)面》當(dāng)中寫(xiě)下了這樣的結(jié)論。在從教的整個(gè)職業(yè)生涯當(dāng)中,Box一直努力將自己的思路轉(zhuǎn)化成模型,而這種習(xí)慣對(duì)于大數(shù)據(jù)分析技術(shù)而言非常適用。1976年12月,《美國(guó)統(tǒng)計(jì)協(xié)會(huì)》雜志曾經(jīng)發(fā)表過(guò)一篇題為《科學(xué)與統(tǒng)計(jì)》的文章,其中具體論證了模型的前世今生與現(xiàn)實(shí)意義。
3. 大數(shù)據(jù)(幾乎)洞悉一切
如果大家還無(wú)法認(rèn)同這一結(jié)論,請(qǐng)盡快強(qiáng)迫自己接受。這句話(huà)源自Scott McNealy在1999年發(fā)表的一份聲明,他表示“大家將徹底告別隱私……請(qǐng)學(xué)會(huì)適應(yīng)這一點(diǎn)。”值得一提的是,McNealy正是Sun Microsystems公司的聯(lián)合創(chuàng)始人兼CEO。如今大數(shù)據(jù)侵入個(gè)人生活的例子比比皆是:分析師有能力根據(jù)社交言論推斷發(fā)言者的性別,或者通過(guò)購(gòu)買(mǎi)習(xí)慣判斷其家中是否存在孕婦;Acxiom等從事大量商業(yè)信息存儲(chǔ)的企業(yè)迎來(lái)輝煌的業(yè)務(wù)飛躍;預(yù)測(cè)及防災(zāi)信息整合正全面崛起;美國(guó)國(guó)安局的“棱鏡門(mén)”事件也已經(jīng)大白于天下。
4. “與業(yè)務(wù)相關(guān)的信息當(dāng)中,有八成源自非結(jié)構(gòu)化形式,主要是文字(但也包括視頻、圖像以及音頻)”
在2008年的一篇文章中有這樣的結(jié)論——雖然正如當(dāng)時(shí)所說(shuō),由于很難精確量化,可能早在上世紀(jì)九十年代初非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)扮演起重要角色,只是我們當(dāng)時(shí)體會(huì)不到。總而言之,八成以上的說(shuō)法只是種模糊的概念而不能過(guò)分較真,因?yàn)閾?jù)我所知,沒(méi)有任何一種評(píng)估機(jī)制針對(duì)這個(gè)問(wèn)題進(jìn)行過(guò)系統(tǒng)性衡量。盡管如此,相信每一位與Box秉持相同理念的統(tǒng)計(jì)學(xué)者都會(huì)認(rèn)為“八成非結(jié)構(gòu)化”這一論斷頗具指導(dǎo)意義——即使其并不正確。無(wú)論具體數(shù)量如何,文本與內(nèi)容分析都應(yīng)該成為大家工具包中的常駐成員。
5. “這不是信息超載,而是過(guò)濾器故障”
Clay Shirky在2008年9月于紐約舉辦的Web 2.0博覽會(huì)上提出了這一論斷。Shirky對(duì)于過(guò)濾器本身的評(píng)價(jià)顯得有些保守,例如“數(shù)據(jù)量的增加并不意味著就能帶來(lái)更好的結(jié)論”,但這正好與我的觀點(diǎn)不謀而合。但前提是事情別做過(guò)頭;大家千萬(wàn)別像Eli Pariser那樣認(rèn)為“過(guò)濾器概念純粹是泡沫”,他的眼界最多也只能達(dá)到自動(dòng)化的層面、無(wú)法再望向更為廣闊的未來(lái)。
6. “相同的含義可以通過(guò)多種不同方式進(jìn)行表達(dá),相同的表達(dá)當(dāng)中可以涵蓋多種不同含義”
在2009年3月IEEE智能系統(tǒng)大會(huì)上,谷歌公司員工Alon Halevy、Peter Norvig以及Fernando Pereira在一篇題為《數(shù)據(jù)的非合理化有效性》一文中陳述了以上觀點(diǎn)。數(shù)據(jù)的非合理化有效性是如何顯露出來(lái)的?他們給出的答案是,“不精確且模棱兩可的”自然語(yǔ)言的語(yǔ)義解釋就是最好的實(shí)例。此外,通過(guò)機(jī)器學(xué)習(xí)進(jìn)行關(guān)系推斷、從而實(shí)現(xiàn)對(duì)大規(guī)模聚合內(nèi)容的解釋也能證明這一點(diǎn)。。
7. “大數(shù)據(jù)的核心不是數(shù)據(jù)!大數(shù)據(jù)的價(jià)值在于分析”
哈佛大學(xué)教授Gary King在與第六條中的幾位谷歌員工一同出席IEEE會(huì)議時(shí)表達(dá)了這一觀點(diǎn)。不過(guò)我并不完全贊同King的這種說(shuō)法。在核實(shí)數(shù)據(jù)需求并制定理想方案以收集并整理數(shù)據(jù)結(jié)構(gòu)的執(zhí)行過(guò)程當(dāng)然也存在價(jià)值。分析能夠幫助我們發(fā)現(xiàn)這些價(jià)值,因此我站在King的肩膀上總結(jié)出這樣一種更準(zhǔn)確些的表述:大數(shù)據(jù)的價(jià)值通過(guò)分析來(lái)實(shí)現(xiàn)。
不過(guò)這只是我的想法,未必能得到King本人的認(rèn)同。對(duì)這個(gè)話(huà)題感興趣的朋友可以點(diǎn)擊此處查看由Steve LaValle、Eric Lesser、Rebecca Shockley、Michael S. Hopkins以及Nina Kruschwitz于2010年12月在《麻省理工大學(xué)-斯隆管理評(píng)論》期刊上發(fā)表的文章《大數(shù)據(jù)、分析以及由觀點(diǎn)到價(jià)值的路徑》。
8. “直覺(jué)的重要性并未受到影響”
這句話(huà)來(lái)自Phil Simon,也就是今年早些時(shí)候發(fā)表的《大到不容忽視:大數(shù)據(jù)商業(yè)案例》一文的作者。(我為該文的撰寫(xiě)提供了關(guān)于文本及情感分析的一些材料。)
Simon解釋稱(chēng),“大數(shù)據(jù)并沒(méi)有,至少目前還沒(méi)有,取代直覺(jué);后者僅僅作為前者的補(bǔ)充存在。二者之間的關(guān)系是連貫統(tǒng)一的,而絕不是非黑即白。”Tim Leberecht在今年六月由CNN刊發(fā)的《為什么大數(shù)據(jù)永遠(yuǎn)無(wú)法替代商業(yè)直覺(jué)》一文中也做出了類(lèi)似的表述。
最后,這八大指引未來(lái)的真理還需要最后一點(diǎn)補(bǔ)充才夠完整——不過(guò)這一點(diǎn)尚未得到廣泛理解:
9. 大數(shù)據(jù)的未來(lái)在于綜合與背景
大部分解決方案當(dāng)中所欠缺的元素在于整合不同來(lái)源信息的能力,這種能力會(huì)以適當(dāng)方式考量與內(nèi)容相關(guān)的產(chǎn)生環(huán)境,從而得出準(zhǔn)確的結(jié)論。這里我打算引用設(shè)計(jì)策略師Jon Kolko在一份啟發(fā)性論文中所涉及的論證過(guò)程(當(dāng)然,多少會(huì)有些斷章取義)。首先,Kolko援引了認(rèn)知心理學(xué)家——他們嘗試研究直覺(jué)與解決方案之間的聯(lián)系——的結(jié)論作為例子。當(dāng)事者會(huì)“根據(jù)實(shí)際背景理解人物、地點(diǎn)以及事件之間的關(guān)聯(lián),弄清事件發(fā)生的具體時(shí)間,從而對(duì)未來(lái)可能發(fā)生的情況做出判斷并采取相應(yīng)的行動(dòng)。”
Kolko將設(shè)計(jì)綜合性視為關(guān)鍵性要素,是一種“將數(shù)據(jù)的操作過(guò)程、組織、調(diào)整以及過(guò)濾過(guò)程與背景相結(jié)合的方式,旨在將數(shù)據(jù)轉(zhuǎn)化為信息與知識(shí)。”這能帶來(lái)怎樣的結(jié)果?IBM公司研究員Jeff Jonas認(rèn)為,“通用目的”型背景系統(tǒng)將有助于在同一數(shù)據(jù)空間內(nèi)對(duì)不同數(shù)據(jù)加以定位。此類(lèi)方案能夠使我們對(duì)不斷變化的觀察空間進(jìn)行可規(guī)模化擴(kuò)展、實(shí)時(shí)且前所未見(jiàn)的探索。
這不正是我們?yōu)榇髷?shù)據(jù)制定的發(fā)展目標(biāo)嗎?從模式檢測(cè)向可操作結(jié)論邁進(jìn)。我希望自己總結(jié)的這九大真理能夠幫助各位了解大數(shù)據(jù)的這一發(fā)展路徑。