大數(shù)據(jù)、統(tǒng)計學與機器學習是怎樣的關系
本文轉載自微信公眾號「曉陽的數(shù)據(jù)小站」,作者曉陽的數(shù)據(jù)小站。轉載本文請聯(lián)系曉陽的數(shù)據(jù)小站公眾號。
大數(shù)據(jù)、統(tǒng)計學與機器學習是怎樣的關系
這三個主題,都是當下熱門的概念,梳理清楚其關系,有助于在后續(xù)的學習中,有的放矢。如果只看結論,可以直接到最后一個章節(jié)。
|0x00 統(tǒng)計分析與實證研究
統(tǒng)計學是通過搜索、整理、分析、描述數(shù)據(jù)等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
為什么要講“統(tǒng)計學”?很簡單,統(tǒng)計分析為現(xiàn)代科學奠定了方法論基礎,即實證研究。統(tǒng)計推斷有個基礎,研究的對象是服從某一規(guī)律法則的隨機過程,而現(xiàn)實觀測到的數(shù)據(jù)是從這個隨機過程產(chǎn)生的,這個隨機過程我們稱之為數(shù)據(jù)生成過程。統(tǒng)計學基于觀測到的數(shù)據(jù)進行建模,推斷出概率法則,便可以應用于實際場景中,如檢驗經(jīng)濟學假說、評估公共政策效果等。
在統(tǒng)計建模中,一般假設的DGP(數(shù)據(jù)生成過程,Data Generating Process)的概率法則可以由唯一的數(shù)學概率模型來刻畫,模型通常將因變量與一些解釋變量或預測變量聯(lián)系起來,同時假設該數(shù)學模型的函數(shù)形式已知,但包含低維的未知參數(shù),這是一種參數(shù)建模方法,在統(tǒng)計學中應用最為廣泛。
統(tǒng)計推斷主要目的是觀測數(shù)據(jù)、估計模型的未知參數(shù)值,將經(jīng)濟理論或者假說轉化為統(tǒng)計參數(shù)假設,然后進行參數(shù)假設檢驗,并對實證結果提供經(jīng)濟解釋。常見的做法,是基于一個預設的顯著性水平(如5%)判斷一個參數(shù)估計值或者參數(shù)假設在統(tǒng)計學上是否顯著。如果具有統(tǒng)計顯著性,則相應的將變量視為一個重要決定因素。
互聯(lián)網(wǎng)行業(yè)中,常見的A/B測試,也是為了驗證某個idea是否具備統(tǒng)計顯著性。
但以上的做法至少需要六個關鍵假設:
- 隨機性,DGP是一個隨機過程;
- 唯一性,DGP的概率法則由唯一的數(shù)學概率模型來刻畫;
- 正確性,存在唯一的未知參數(shù),使得概率模型與DGP概率法則相吻合;
- 代表性,描述觀測數(shù)據(jù)的隨機樣本不存在樣本選擇偏差;
- 抽樣推斷總體,使用包含DGP信息的樣本數(shù)據(jù)來推斷總體分布特征;
- 統(tǒng)計顯著性,使用統(tǒng)計檢驗量的P值,在預設的顯著性水平(如5%)上判斷解釋變量或預測變量是否重要,并據(jù)此提供邏輯解釋。
如果以上概念非常不好理解,那么就簡單記住下面幾句:
- 總結數(shù)據(jù)與模型;
- 推斷結論是否合理;
- 回答重要的社會問題;
- 認識并改善我們日常的行為模型。
|0x01 大數(shù)據(jù)特征
通常意義上,我們可以認為大數(shù)據(jù)是繼信息革命后的第四次革命,尤其是互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)的普及、物聯(lián)網(wǎng)的興起,數(shù)據(jù)的增長是指數(shù)級別的。大數(shù)據(jù)最顯著的特征,是其“4V”特性,即:
- Volume(海量性):多渠道采集的數(shù)據(jù),包括了日志、音視頻、地理位置等信息,但存儲壓力在Hadoop之后得到緩解;
- Velocity(高速性):大數(shù)據(jù)的產(chǎn)生、傳播與計算速度,是前所未有的,需要實時分析而非批量式分析,這也是Flink快速興起的緣由;
- Variety(多樣性):大數(shù)據(jù)形式多樣,既包括了傳統(tǒng)的結構化數(shù)據(jù),也有很多非結構化的數(shù)據(jù),“數(shù)據(jù)湖”的出現(xiàn)也是為了解決非結構化數(shù)據(jù)的計算問題;
- Veracity(真實性):大數(shù)據(jù)體量龐大,但信息密度低,因此如何進行去偽存真、有效概括并提取大數(shù)據(jù)中的有效信息,就顯得非常重要。
盡管我們能夠熟練背誦大數(shù)據(jù)的4V原理,但其背后的深刻概念與技術挑戰(zhàn),卻是一直被忽視的。從統(tǒng)計學的角度看,大數(shù)據(jù)的4V特征會有一些新的解讀。
- Volume(海量性):海量有雙重含義,一個是大數(shù)據(jù)的樣本容量非常大,另一個是能在給定時間內從不同維度對DGP進行比較多的描述;
- Velocity(高速性):在高頻甚至實時條件下記錄或收集數(shù)據(jù),使得準實時的數(shù)據(jù)分析與預測成為可能;
- Variety(多樣性):統(tǒng)計學長期以來關注結構化數(shù)據(jù),但不同形式的數(shù)據(jù)組合在一起,將提供比傳統(tǒng)數(shù)據(jù)更多有價值的信息,如社交媒體的非結構信息;
- Veracity(真實性):統(tǒng)計學的本質是有效地從數(shù)據(jù)中提取有價值的真實信息,雖然很多經(jīng)典的統(tǒng)計方法很有用,但也需要發(fā)展新方法和新工具。
|0x02 機器學習及其本質
與統(tǒng)計學一樣,機器學習也是一種重要的大數(shù)據(jù)分析工具,盡管機器學習由于云計算的出現(xiàn)得到了迅速的發(fā)展和普及,但機器學習并不能替代統(tǒng)計學。例如,盡管機器學習在改善樣本外預測和模式識別方面非常有用,但統(tǒng)計學在推斷分析、因果分析、結果解釋等方面依然可以發(fā)揮很大的作用。可以說,機器學習與統(tǒng)計學是互補的,兩者的交叉融合可以為數(shù)據(jù)科學提供新的方法與工具。
機器學習可以分為三個主要的類別:監(jiān)督學習、無監(jiān)督學習和強化學習。
監(jiān)督學習基于訓練好的數(shù)據(jù)來構建算法,訓練數(shù)據(jù)包含一組訓練樣例,每個訓練樣例擁有一個或多個輸入與輸出,成為監(jiān)督信號,通過對目標函數(shù)的迭代優(yōu)化,監(jiān)督學習算法探索出一個函數(shù),可用于預測新輸入所對應的輸出。
無監(jiān)督學習只在包含輸入的訓練數(shù)據(jù)中尋找結構,識別訓練數(shù)據(jù)的共性特征,并基于每個新數(shù)據(jù)所呈現(xiàn)或缺失的這種共性特征做出判斷。
強化學習是研究算法如何在動態(tài)環(huán)境中執(zhí)行任務,以實現(xiàn)累計獎勵的最大化。很多學科對這個領域有研究,比如博弈論、控制論等,在自動駕駛、人類博弈比賽等方面比較常用。
因此,從本質上說,機器學習是數(shù)據(jù)優(yōu)化問題與算法優(yōu)化問題,數(shù)學優(yōu)化為該領域提供了理論、方法與應用。
|0xFF 大數(shù)據(jù)、機器學習與統(tǒng)計學的關系
主要有四點。
第一,大數(shù)據(jù)的出現(xiàn),其實并沒有改變統(tǒng)計學通過隨機抽樣來推斷總體分布特征的基本思想,需要統(tǒng)計學的基本方法,如充分性原則、因果推斷等,依然適用于大數(shù)據(jù)分析。此外,大數(shù)據(jù)提供了很多傳統(tǒng)數(shù)據(jù)所沒有的信息,大大拓展了統(tǒng)計學研究的邊界,如非結構化數(shù)據(jù)的影響,而實時數(shù)據(jù)甚至為實時預測和高頻統(tǒng)計建模帶來可能。
第二,由于樣本容量的巨大,大數(shù)據(jù)很有可能改變基于統(tǒng)計顯著性來選擇統(tǒng)計模型重要變量的習慣做法,研究范式就會從參數(shù)估計的不確定性轉為模型選擇的不確定性,這對統(tǒng)計建模與推斷會帶來新的挑戰(zhàn)。
第三,機器學習的興起得益于大數(shù)據(jù)的爆炸式發(fā)展,與統(tǒng)計學類似,機器學習也存在并且特別注重樣本偏差的問題。機器學習的本質是一個數(shù)據(jù)優(yōu)化問題及實現(xiàn)該優(yōu)化問題的計算機算法問題,它比統(tǒng)計學的參數(shù)建模更普遍和更靈活。
第四,在大數(shù)據(jù)的加持下,機器學習與統(tǒng)計推斷的結合,有望為數(shù)據(jù)科學提供一些新的發(fā)展方向,包括變量降維、精準預測、因果識別等方面。