大數(shù)據(jù)、統(tǒng)計學與機器學習是怎樣的關系

作者：曉陽的數(shù)據(jù)小站 2021-06-10 19:02:37

開發(fā)

統(tǒng)計學是通過搜索、整理、分析、描述數(shù)據(jù)等手段，以達到推斷所測對象的本質，甚至預測對象未來的一門綜合性科學。

[[405079]]

本文轉載自微信公眾號「曉陽的數(shù)據(jù)小站」，作者曉陽的數(shù)據(jù)小站。轉載本文請聯(lián)系曉陽的數(shù)據(jù)小站公眾號。

大數(shù)據(jù)、統(tǒng)計學與機器學習是怎樣的關系

這三個主題，都是當下熱門的概念，梳理清楚其關系，有助于在后續(xù)的學習中，有的放矢。如果只看結論，可以直接到最后一個章節(jié)。

|0x00 統(tǒng)計分析與實證研究

統(tǒng)計學是通過搜索、整理、分析、描述數(shù)據(jù)等手段，以達到推斷所測對象的本質，甚至預測對象未來的一門綜合性科學。

為什么要講“統(tǒng)計學”?很簡單，統(tǒng)計分析為現(xiàn)代科學奠定了方法論基礎，即實證研究。統(tǒng)計推斷有個基礎，研究的對象是服從某一規(guī)律法則的隨機過程，而現(xiàn)實觀測到的數(shù)據(jù)是從這個隨機過程產(chǎn)生的，這個隨機過程我們稱之為數(shù)據(jù)生成過程。統(tǒng)計學基于觀測到的數(shù)據(jù)進行建模，推斷出概率法則，便可以應用于實際場景中，如檢驗經(jīng)濟學假說、評估公共政策效果等。

在統(tǒng)計建模中，一般假設的DGP(數(shù)據(jù)生成過程，Data Generating Process)的概率法則可以由唯一的數(shù)學概率模型來刻畫，模型通常將因變量與一些解釋變量或預測變量聯(lián)系起來，同時假設該數(shù)學模型的函數(shù)形式已知，但包含低維的未知參數(shù)，這是一種參數(shù)建模方法，在統(tǒng)計學中應用最為廣泛。

統(tǒng)計推斷主要目的是觀測數(shù)據(jù)、估計模型的未知參數(shù)值，將經(jīng)濟理論或者假說轉化為統(tǒng)計參數(shù)假設，然后進行參數(shù)假設檢驗，并對實證結果提供經(jīng)濟解釋。常見的做法，是基于一個預設的顯著性水平(如5%)判斷一個參數(shù)估計值或者參數(shù)假設在統(tǒng)計學上是否顯著。如果具有統(tǒng)計顯著性，則相應的將變量視為一個重要決定因素。

互聯(lián)網(wǎng)行業(yè)中，常見的A/B測試，也是為了驗證某個idea是否具備統(tǒng)計顯著性。

但以上的做法至少需要六個關鍵假設：

隨機性，DGP是一個隨機過程;
唯一性，DGP的概率法則由唯一的數(shù)學概率模型來刻畫;
正確性，存在唯一的未知參數(shù)，使得概率模型與DGP概率法則相吻合;
代表性，描述觀測數(shù)據(jù)的隨機樣本不存在樣本選擇偏差;
抽樣推斷總體，使用包含DGP信息的樣本數(shù)據(jù)來推斷總體分布特征;
統(tǒng)計顯著性，使用統(tǒng)計檢驗量的P值，在預設的顯著性水平(如5%)上判斷解釋變量或預測變量是否重要，并據(jù)此提供邏輯解釋。

如果以上概念非常不好理解，那么就簡單記住下面幾句：

總結數(shù)據(jù)與模型;
推斷結論是否合理;
回答重要的社會問題;
認識并改善我們日常的行為模型。

|0x01 大數(shù)據(jù)特征

通常意義上，我們可以認為大數(shù)據(jù)是繼信息革命后的第四次革命，尤其是互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)的普及、物聯(lián)網(wǎng)的興起，數(shù)據(jù)的增長是指數(shù)級別的。大數(shù)據(jù)最顯著的特征，是其“4V”特性，即：

Volume(海量性)：多渠道采集的數(shù)據(jù)，包括了日志、音視頻、地理位置等信息，但存儲壓力在Hadoop之后得到緩解;
Velocity(高速性)：大數(shù)據(jù)的產(chǎn)生、傳播與計算速度，是前所未有的，需要實時分析而非批量式分析，這也是Flink快速興起的緣由;
Variety(多樣性)：大數(shù)據(jù)形式多樣，既包括了傳統(tǒng)的結構化數(shù)據(jù)，也有很多非結構化的數(shù)據(jù)，“數(shù)據(jù)湖”的出現(xiàn)也是為了解決非結構化數(shù)據(jù)的計算問題;
Veracity(真實性)：大數(shù)據(jù)體量龐大，但信息密度低，因此如何進行去偽存真、有效概括并提取大數(shù)據(jù)中的有效信息，就顯得非常重要。

盡管我們能夠熟練背誦大數(shù)據(jù)的4V原理，但其背后的深刻概念與技術挑戰(zhàn)，卻是一直被忽視的。從統(tǒng)計學的角度看，大數(shù)據(jù)的4V特征會有一些新的解讀。

Volume(海量性)：海量有雙重含義，一個是大數(shù)據(jù)的樣本容量非常大，另一個是能在給定時間內從不同維度對DGP進行比較多的描述;
Velocity(高速性)：在高頻甚至實時條件下記錄或收集數(shù)據(jù)，使得準實時的數(shù)據(jù)分析與預測成為可能;
Variety(多樣性)：統(tǒng)計學長期以來關注結構化數(shù)據(jù)，但不同形式的數(shù)據(jù)組合在一起，將提供比傳統(tǒng)數(shù)據(jù)更多有價值的信息，如社交媒體的非結構信息;
Veracity(真實性)：統(tǒng)計學的本質是有效地從數(shù)據(jù)中提取有價值的真實信息，雖然很多經(jīng)典的統(tǒng)計方法很有用，但也需要發(fā)展新方法和新工具。

|0x02 機器學習及其本質

與統(tǒng)計學一樣，機器學習也是一種重要的大數(shù)據(jù)分析工具，盡管機器學習由于云計算的出現(xiàn)得到了迅速的發(fā)展和普及，但機器學習并不能替代統(tǒng)計學。例如，盡管機器學習在改善樣本外預測和模式識別方面非常有用，但統(tǒng)計學在推斷分析、因果分析、結果解釋等方面依然可以發(fā)揮很大的作用。可以說，機器學習與統(tǒng)計學是互補的，兩者的交叉融合可以為數(shù)據(jù)科學提供新的方法與工具。

機器學習可以分為三個主要的類別：監(jiān)督學習、無監(jiān)督學習和強化學習。

監(jiān)督學習基于訓練好的數(shù)據(jù)來構建算法，訓練數(shù)據(jù)包含一組訓練樣例，每個訓練樣例擁有一個或多個輸入與輸出，成為監(jiān)督信號，通過對目標函數(shù)的迭代優(yōu)化，監(jiān)督學習算法探索出一個函數(shù)，可用于預測新輸入所對應的輸出。

無監(jiān)督學習只在包含輸入的訓練數(shù)據(jù)中尋找結構，識別訓練數(shù)據(jù)的共性特征，并基于每個新數(shù)據(jù)所呈現(xiàn)或缺失的這種共性特征做出判斷。

強化學習是研究算法如何在動態(tài)環(huán)境中執(zhí)行任務，以實現(xiàn)累計獎勵的最大化。很多學科對這個領域有研究，比如博弈論、控制論等，在自動駕駛、人類博弈比賽等方面比較常用。

因此，從本質上說，機器學習是數(shù)據(jù)優(yōu)化問題與算法優(yōu)化問題，數(shù)學優(yōu)化為該領域提供了理論、方法與應用。

|0xFF 大數(shù)據(jù)、機器學習與統(tǒng)計學的關系

主要有四點。

第一，大數(shù)據(jù)的出現(xiàn)，其實并沒有改變統(tǒng)計學通過隨機抽樣來推斷總體分布特征的基本思想，需要統(tǒng)計學的基本方法，如充分性原則、因果推斷等，依然適用于大數(shù)據(jù)分析。此外，大數(shù)據(jù)提供了很多傳統(tǒng)數(shù)據(jù)所沒有的信息，大大拓展了統(tǒng)計學研究的邊界，如非結構化數(shù)據(jù)的影響，而實時數(shù)據(jù)甚至為實時預測和高頻統(tǒng)計建模帶來可能。

第二，由于樣本容量的巨大，大數(shù)據(jù)很有可能改變基于統(tǒng)計顯著性來選擇統(tǒng)計模型重要變量的習慣做法，研究范式就會從參數(shù)估計的不確定性轉為模型選擇的不確定性，這對統(tǒng)計建模與推斷會帶來新的挑戰(zhàn)。

第三，機器學習的興起得益于大數(shù)據(jù)的爆炸式發(fā)展，與統(tǒng)計學類似，機器學習也存在并且特別注重樣本偏差的問題。機器學習的本質是一個數(shù)據(jù)優(yōu)化問題及實現(xiàn)該優(yōu)化問題的計算機算法問題，它比統(tǒng)計學的參數(shù)建模更普遍和更靈活。

第四，在大數(shù)據(jù)的加持下，機器學習與統(tǒng)計推斷的結合，有望為數(shù)據(jù)科學提供一些新的發(fā)展方向，包括變量降維、精準預測、因果識別等方面。

責任編輯：武曉燕來源：曉陽的數(shù)據(jù)小站

大數(shù)據(jù)統(tǒng)計學機器學習

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)、統(tǒng)計學與機器學習是怎樣的關系

[[405079]]

大數(shù)據(jù)、統(tǒng)計學與機器學習是怎樣的關系

|0x00 統(tǒng)計分析與實證研究

|0x01 大數(shù)據(jù)特征

|0x02 機器學習及其本質

|0xFF 大數(shù)據(jù)、機器學習與統(tǒng)計學的關系