大小數(shù)據(jù) | 辨析大數(shù)據(jù)價(jià)值與小數(shù)據(jù)洞察

大數(shù)據(jù)技術(shù)的出現(xiàn)帶給人們的思維方式、行為方式、媒體傳播方式及社會(huì)治理方式等都諸多方面帶來(lái)了革命性的變革。《大數(shù)據(jù)時(shí)代》一書(shū)的核心觀點(diǎn)是說(shuō):“在大數(shù)據(jù)時(shí)代,我們正經(jīng)歷著一場(chǎng)生活、工作與思維的大變革。

我們沒(méi)必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲。”在大數(shù)據(jù)時(shí)代,相關(guān)關(guān)系能夠幫助我們更好地了解這個(gè)世界,建立在相關(guān)關(guān)系分析法上面的預(yù)測(cè)是大數(shù)據(jù)的核心,通過(guò)找到“關(guān)聯(lián)物”并監(jiān)控它,我們就能夠預(yù)測(cè)未來(lái)。
作者還提出了“大數(shù)據(jù)三原則”:要全體不要抽樣,要效率不要精確,要相關(guān)不要因果。雖說(shuō)該書(shū)作者提出的“要相關(guān)不要因果”的觀點(diǎn)還值得商榷,但“相關(guān)性”觀點(diǎn)還是從某個(gè)層面上說(shuō)出了大數(shù)據(jù)時(shí)代的核心特征。大數(shù)據(jù)是往往是商業(yè)自動(dòng)化產(chǎn)生的數(shù)據(jù),又具有實(shí)時(shí)在線的特征。

與大數(shù)據(jù)概念相對(duì)應(yīng)的,在這之前的數(shù)據(jù)似乎就是所謂小數(shù)據(jù),如果有所謂的小數(shù)據(jù)概念的話,應(yīng)該特指采用調(diào)查方法獲得的抽樣數(shù)據(jù),或者是結(jié)構(gòu)化的海量數(shù)據(jù)。對(duì)于小數(shù)據(jù)的分析通常采用的是傳統(tǒng)的統(tǒng)計(jì)分析方法,是一種自上而下的實(shí)證研究方法論。小數(shù)據(jù)往往依托數(shù)理統(tǒng)計(jì)的大數(shù)定律,描述了抽樣理論下樣本最終服從中心極限定理的正態(tài)分布理論,強(qiáng)調(diào)描述性統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)。
大數(shù)據(jù)重預(yù)測(cè),小數(shù)據(jù)重解釋
大數(shù)據(jù)的開(kāi)放性、公開(kāi)性和易獲得性,社交網(wǎng)絡(luò)每天產(chǎn)生的大數(shù)據(jù)可以在一定規(guī)則開(kāi)放性下,通過(guò)應(yīng)用程序接口(API)和爬蟲(chóng)技術(shù)采集,一些商業(yè)機(jī)構(gòu)和政府組織也向社會(huì)研究機(jī)構(gòu)提供各種海量數(shù)據(jù)源,特別是政府開(kāi)始提供權(quán)威開(kāi)放數(shù)據(jù)源。大數(shù)據(jù)往往帶有時(shí)間標(biāo)簽,更具預(yù)測(cè)性。國(guó)內(nèi)外眾多機(jī)構(gòu)開(kāi)始采集海量Twitter和微博上的傳播信息和個(gè)人屬性特征和標(biāo)簽,期望預(yù)測(cè)社會(huì)輿情和社會(huì)情感、預(yù)測(cè)電影票房、預(yù)測(cè)商業(yè)機(jī)會(huì),進(jìn)而期望預(yù)測(cè)人們的態(tài)度和行為。開(kāi)放、公開(kāi)易獲得數(shù)據(jù)源是大數(shù)據(jù)時(shí)代的基本特征和產(chǎn)生社會(huì)影響本質(zhì)。

大數(shù)據(jù)重發(fā)現(xiàn),而小數(shù)據(jù)重實(shí)證
傳統(tǒng)的小數(shù)據(jù)重實(shí)證研究,強(qiáng)調(diào)在理論的前提下建立假設(shè),收集數(shù)據(jù),證偽理論的適用性,采用隨機(jī)抽樣的定量調(diào)查問(wèn)卷獲取數(shù)據(jù),驗(yàn)證假設(shè)。這是一種自上而下的決策和思維過(guò)程。而大數(shù)據(jù)重發(fā)現(xiàn)知識(shí),預(yù)知未來(lái),為探索未知的社會(huì)現(xiàn)象和發(fā)展規(guī)律帶來(lái)機(jī)遇。這種預(yù)見(jiàn)性是一種自下而上的知識(shí)發(fā)現(xiàn)過(guò)程,是在沒(méi)有理論假設(shè)的前提下去預(yù)知社會(huì)和洞察社會(huì)現(xiàn)象、趨勢(shì)和規(guī)律。
大數(shù)據(jù)重相關(guān),小數(shù)據(jù)重因果
大數(shù)據(jù)重關(guān)系,而不關(guān)心因果,關(guān)注是什么而不關(guān)心為什么,盡管大數(shù)據(jù)依然可以回答因果問(wèn)題,但因果關(guān)系并非來(lái)自統(tǒng)計(jì)或數(shù)據(jù),而是來(lái)自研究者的理論和假設(shè)。大數(shù)據(jù)分析更關(guān)注數(shù)據(jù)的相關(guān)性測(cè)量和商業(yè)應(yīng)用價(jià)值。大數(shù)據(jù)挖掘往往是發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息和知識(shí),甚至是違背直覺(jué)的,有時(shí)候越是出乎意料可能越有社會(huì)和商業(yè)價(jià)值。媒體人應(yīng)該有責(zé)任和有能力從數(shù)據(jù)中發(fā)現(xiàn)事物內(nèi)在規(guī)律,發(fā)現(xiàn)內(nèi)在,預(yù)警社會(huì)。
大數(shù)據(jù)重全體,小數(shù)據(jù)重抽樣
大數(shù)據(jù)是商業(yè)自動(dòng)化存儲(chǔ)的數(shù)據(jù),在軟硬件滿足的條件下可以分析海量數(shù)據(jù)。隨著存儲(chǔ)和軟硬件的經(jīng)濟(jì)性和分析工具的高性能,海量數(shù)據(jù)的處理能力得到提升,數(shù)據(jù)挖掘算法不斷改進(jìn)和豐富,特別是統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)建模技術(shù)發(fā)展,抽樣并非是必要的手段和方法論。盡管大數(shù)據(jù)不一定是總體,理論上講再大的局部也沒(méi)有隨機(jī)抽樣更具代表性,但機(jī)器學(xué)習(xí)算法所帶來(lái)的個(gè)性化推薦技術(shù)、非線性建模、網(wǎng)絡(luò)分析、空間地理分析、實(shí)時(shí)在線的數(shù)據(jù)可視化分析手段都應(yīng)成為我們認(rèn)識(shí)世界、感知社會(huì)的重要手段和目的。
大數(shù)據(jù)重感知,小數(shù)據(jù)重精確
大數(shù)據(jù)具有變生產(chǎn)邊應(yīng)用,邊應(yīng)用邊生產(chǎn),實(shí)時(shí)在線分析的特點(diǎn),往往更關(guān)注數(shù)據(jù)從總體上感知社會(huì),通過(guò)大數(shù)據(jù)的在線可視化技術(shù)呈現(xiàn)大規(guī)模數(shù)據(jù)的流動(dòng)模式,大數(shù)據(jù)時(shí)代背景下的社會(huì)治理、輿情研究、智慧城市、智能交通、傳染病傳播、謠言傳播提供了數(shù)據(jù)基礎(chǔ)。大數(shù)據(jù)同時(shí)關(guān)注對(duì)個(gè)體的數(shù)據(jù)挖掘,個(gè)性化推薦,精準(zhǔn)營(yíng)銷,傳播路徑分析等應(yīng)用領(lǐng)域都具有大數(shù)據(jù)特點(diǎn)。小數(shù)據(jù)往往采用顯著性檢驗(yàn),統(tǒng)計(jì)顯著性受到樣本代表性和樣本量的影響,對(duì)數(shù)據(jù)來(lái)源的真實(shí)性、無(wú)偏性和代表性格外重視。
大數(shù)據(jù)挖掘技術(shù)可以說(shuō)是統(tǒng)計(jì)分析技術(shù)的進(jìn)化,但狹義角度講大數(shù)據(jù)的挖掘已經(jīng)不是小數(shù)據(jù)時(shí)代的統(tǒng)計(jì)分析了,更多的是指機(jī)器學(xué)習(xí)算法和云計(jì)算技術(shù),當(dāng)然也包括傳統(tǒng)的多變量高級(jí)統(tǒng)計(jì)技術(shù)。與此同時(shí),數(shù)據(jù)科學(xué)(Data Science)興起,人們調(diào)侃說(shuō)數(shù)據(jù)科學(xué)家成為最搶手、最熱門(mén)、最性感的職業(yè)。

盡管所謂的小數(shù)據(jù)具有大數(shù)據(jù)不可替代的商業(yè)應(yīng)用和學(xué)術(shù)研究?jī)r(jià)值,但是大數(shù)據(jù)帶來(lái)的社會(huì)變革是小數(shù)據(jù)無(wú)法比擬的,社會(huì)已經(jīng)將大數(shù)據(jù)認(rèn)為是國(guó)家發(fā)展戰(zhàn)略,是社會(huì)第四生產(chǎn)要素,是驅(qū)動(dòng)社會(huì)變革和創(chuàng)新的新動(dòng)力。
大數(shù)據(jù)一切從開(kāi)源開(kāi)始,”軟件定義一起,數(shù)據(jù)驅(qū)動(dòng)未來(lái),算法統(tǒng)治世界”是IT領(lǐng)域相關(guān)人士對(duì)大數(shù)據(jù)時(shí)代的***詮釋。特別是大數(shù)據(jù)與新聞融合產(chǎn)生了數(shù)據(jù)新聞,成為未來(lái)新聞事業(yè)的發(fā)展方向,這種報(bào)道形式不僅豐富了新聞的表現(xiàn)形式,而且改變了新聞生產(chǎn)流程,對(duì)于新聞從業(yè)人員的思維也是一次巨大的顛覆。