成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)、統(tǒng)計學與機器學習是怎樣的關系

開發(fā)
統(tǒng)計學是通過搜索、整理、分析、描述數(shù)據(jù)等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。

 [[405079]]

本文轉載自微信公眾號「曉陽的數(shù)據(jù)小站」,作者曉陽的數(shù)據(jù)小站。轉載本文請聯(lián)系曉陽的數(shù)據(jù)小站公眾號。

大數(shù)據(jù)、統(tǒng)計學與機器學習是怎樣的關系

這三個主題,都是當下熱門的概念,梳理清楚其關系,有助于在后續(xù)的學習中,有的放矢。如果只看結論,可以直接到最后一個章節(jié)。

|0x00 統(tǒng)計分析與實證研究

統(tǒng)計學是通過搜索、整理、分析、描述數(shù)據(jù)等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。

為什么要講“統(tǒng)計學”?很簡單,統(tǒng)計分析為現(xiàn)代科學奠定了方法論基礎,即實證研究。統(tǒng)計推斷有個基礎,研究的對象是服從某一規(guī)律法則的隨機過程,而現(xiàn)實觀測到的數(shù)據(jù)是從這個隨機過程產(chǎn)生的,這個隨機過程我們稱之為數(shù)據(jù)生成過程。統(tǒng)計學基于觀測到的數(shù)據(jù)進行建模,推斷出概率法則,便可以應用于實際場景中,如檢驗經(jīng)濟學假說、評估公共政策效果等。

在統(tǒng)計建模中,一般假設的DGP(數(shù)據(jù)生成過程,Data Generating Process)的概率法則可以由唯一的數(shù)學概率模型來刻畫,模型通常將因變量與一些解釋變量或預測變量聯(lián)系起來,同時假設該數(shù)學模型的函數(shù)形式已知,但包含低維的未知參數(shù),這是一種參數(shù)建模方法,在統(tǒng)計學中應用最為廣泛。

統(tǒng)計推斷主要目的是觀測數(shù)據(jù)、估計模型的未知參數(shù)值,將經(jīng)濟理論或者假說轉化為統(tǒng)計參數(shù)假設,然后進行參數(shù)假設檢驗,并對實證結果提供經(jīng)濟解釋。常見的做法,是基于一個預設的顯著性水平(如5%)判斷一個參數(shù)估計值或者參數(shù)假設在統(tǒng)計學上是否顯著。如果具有統(tǒng)計顯著性,則相應的將變量視為一個重要決定因素。

互聯(lián)網(wǎng)行業(yè)中,常見的A/B測試,也是為了驗證某個idea是否具備統(tǒng)計顯著性。

但以上的做法至少需要六個關鍵假設:

  • 隨機性,DGP是一個隨機過程;
  • 唯一性,DGP的概率法則由唯一的數(shù)學概率模型來刻畫;
  • 正確性,存在唯一的未知參數(shù),使得概率模型與DGP概率法則相吻合;
  • 代表性,描述觀測數(shù)據(jù)的隨機樣本不存在樣本選擇偏差;
  • 抽樣推斷總體,使用包含DGP信息的樣本數(shù)據(jù)來推斷總體分布特征;
  • 統(tǒng)計顯著性,使用統(tǒng)計檢驗量的P值,在預設的顯著性水平(如5%)上判斷解釋變量或預測變量是否重要,并據(jù)此提供邏輯解釋。

如果以上概念非常不好理解,那么就簡單記住下面幾句:

  • 總結數(shù)據(jù)與模型;
  • 推斷結論是否合理;
  • 回答重要的社會問題;
  • 認識并改善我們日常的行為模型。

|0x01 大數(shù)據(jù)特征

通常意義上,我們可以認為大數(shù)據(jù)是繼信息革命后的第四次革命,尤其是互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)的普及、物聯(lián)網(wǎng)的興起,數(shù)據(jù)的增長是指數(shù)級別的。大數(shù)據(jù)最顯著的特征,是其“4V”特性,即:

  • Volume(海量性):多渠道采集的數(shù)據(jù),包括了日志、音視頻、地理位置等信息,但存儲壓力在Hadoop之后得到緩解;
  • Velocity(高速性):大數(shù)據(jù)的產(chǎn)生、傳播與計算速度,是前所未有的,需要實時分析而非批量式分析,這也是Flink快速興起的緣由;
  • Variety(多樣性):大數(shù)據(jù)形式多樣,既包括了傳統(tǒng)的結構化數(shù)據(jù),也有很多非結構化的數(shù)據(jù),“數(shù)據(jù)湖”的出現(xiàn)也是為了解決非結構化數(shù)據(jù)的計算問題;
  • Veracity(真實性):大數(shù)據(jù)體量龐大,但信息密度低,因此如何進行去偽存真、有效概括并提取大數(shù)據(jù)中的有效信息,就顯得非常重要。

盡管我們能夠熟練背誦大數(shù)據(jù)的4V原理,但其背后的深刻概念與技術挑戰(zhàn),卻是一直被忽視的。從統(tǒng)計學的角度看,大數(shù)據(jù)的4V特征會有一些新的解讀。

  • Volume(海量性):海量有雙重含義,一個是大數(shù)據(jù)的樣本容量非常大,另一個是能在給定時間內從不同維度對DGP進行比較多的描述;
  • Velocity(高速性):在高頻甚至實時條件下記錄或收集數(shù)據(jù),使得準實時的數(shù)據(jù)分析與預測成為可能;
  • Variety(多樣性):統(tǒng)計學長期以來關注結構化數(shù)據(jù),但不同形式的數(shù)據(jù)組合在一起,將提供比傳統(tǒng)數(shù)據(jù)更多有價值的信息,如社交媒體的非結構信息;
  • Veracity(真實性):統(tǒng)計學的本質是有效地從數(shù)據(jù)中提取有價值的真實信息,雖然很多經(jīng)典的統(tǒng)計方法很有用,但也需要發(fā)展新方法和新工具。

|0x02 機器學習及其本質

與統(tǒng)計學一樣,機器學習也是一種重要的大數(shù)據(jù)分析工具,盡管機器學習由于云計算的出現(xiàn)得到了迅速的發(fā)展和普及,但機器學習并不能替代統(tǒng)計學。例如,盡管機器學習在改善樣本外預測和模式識別方面非常有用,但統(tǒng)計學在推斷分析、因果分析、結果解釋等方面依然可以發(fā)揮很大的作用。可以說,機器學習與統(tǒng)計學是互補的,兩者的交叉融合可以為數(shù)據(jù)科學提供新的方法與工具。

機器學習可以分為三個主要的類別:監(jiān)督學習、無監(jiān)督學習和強化學習。

監(jiān)督學習基于訓練好的數(shù)據(jù)來構建算法,訓練數(shù)據(jù)包含一組訓練樣例,每個訓練樣例擁有一個或多個輸入與輸出,成為監(jiān)督信號,通過對目標函數(shù)的迭代優(yōu)化,監(jiān)督學習算法探索出一個函數(shù),可用于預測新輸入所對應的輸出。

無監(jiān)督學習只在包含輸入的訓練數(shù)據(jù)中尋找結構,識別訓練數(shù)據(jù)的共性特征,并基于每個新數(shù)據(jù)所呈現(xiàn)或缺失的這種共性特征做出判斷。

強化學習是研究算法如何在動態(tài)環(huán)境中執(zhí)行任務,以實現(xiàn)累計獎勵的最大化。很多學科對這個領域有研究,比如博弈論、控制論等,在自動駕駛、人類博弈比賽等方面比較常用。

因此,從本質上說,機器學習是數(shù)據(jù)優(yōu)化問題與算法優(yōu)化問題,數(shù)學優(yōu)化為該領域提供了理論、方法與應用。

|0xFF 大數(shù)據(jù)、機器學習與統(tǒng)計學的關系

主要有四點。

第一,大數(shù)據(jù)的出現(xiàn),其實并沒有改變統(tǒng)計學通過隨機抽樣來推斷總體分布特征的基本思想,需要統(tǒng)計學的基本方法,如充分性原則、因果推斷等,依然適用于大數(shù)據(jù)分析。此外,大數(shù)據(jù)提供了很多傳統(tǒng)數(shù)據(jù)所沒有的信息,大大拓展了統(tǒng)計學研究的邊界,如非結構化數(shù)據(jù)的影響,而實時數(shù)據(jù)甚至為實時預測和高頻統(tǒng)計建模帶來可能。

第二,由于樣本容量的巨大,大數(shù)據(jù)很有可能改變基于統(tǒng)計顯著性來選擇統(tǒng)計模型重要變量的習慣做法,研究范式就會從參數(shù)估計的不確定性轉為模型選擇的不確定性,這對統(tǒng)計建模與推斷會帶來新的挑戰(zhàn)。

第三,機器學習的興起得益于大數(shù)據(jù)的爆炸式發(fā)展,與統(tǒng)計學類似,機器學習也存在并且特別注重樣本偏差的問題。機器學習的本質是一個數(shù)據(jù)優(yōu)化問題及實現(xiàn)該優(yōu)化問題的計算機算法問題,它比統(tǒng)計學的參數(shù)建模更普遍和更靈活。

 

第四,在大數(shù)據(jù)的加持下,機器學習與統(tǒng)計推斷的結合,有望為數(shù)據(jù)科學提供一些新的發(fā)展方向,包括變量降維、精準預測、因果識別等方面。

 

責任編輯:武曉燕 來源: 曉陽的數(shù)據(jù)小站
相關推薦

2015-07-29 11:27:28

大數(shù)據(jù)時代數(shù)據(jù)分析統(tǒng)計學

2015-08-17 09:43:08

2013-05-29 09:53:39

2015-10-22 10:54:24

小數(shù)據(jù)統(tǒng)計

2015-10-29 09:56:23

小數(shù)據(jù)大數(shù)據(jù)統(tǒng)計學

2017-01-19 08:35:51

數(shù)據(jù)科學深度學習機器學習

2014-08-12 15:03:57

大數(shù)據(jù)

2018-08-26 15:26:34

機器學習統(tǒng)計學深度學習

2019-12-13 17:36:00

機器學習設計數(shù)學

2019-04-23 08:23:51

統(tǒng)計學機器學習人工智能

2017-03-07 14:51:07

2019-08-19 09:31:47

數(shù)據(jù)機器學習統(tǒng)計學習

2022-09-19 23:55:59

深度學習統(tǒng)計學人工智能

2017-04-26 13:18:35

大數(shù)據(jù)數(shù)據(jù)科學人工智能

2019-07-03 15:21:47

數(shù)據(jù)科學統(tǒng)計數(shù)據(jù)數(shù)據(jù)結構

2012-05-31 14:54:59

Hadoop大數(shù)據(jù)

2021-07-08 15:45:08

統(tǒng)計學AI深度學習

2024-10-05 16:00:00

谷歌開源模型

2024-11-21 10:07:40

2024-12-02 13:28:44

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品久久久蜜桃 | 日本久久www成人免 成人久久久久 | 久久99精品久久久久久噜噜 | 成人在线播放网址 | 熟女毛片| 日本又色又爽又黄又高潮 | 亚洲欧美一区在线 | 国产成人在线一区二区 | 亚洲日本成人 | 精品一区二区三区四区在线 | 婷婷狠狠 | 欧美精品二区 | 久久精品视频网站 | 成人国产精品久久 | 国产精品国产三级国产aⅴ中文 | 九色网址 | 在线日韩福利 | 亚洲黄色av网站 | 日韩中文字幕一区 | 国产精品夜夜夜一区二区三区尤 | 中国一级特黄毛片大片 | 亚洲精品日韩一区二区电影 | 日本在线免费视频 | 日韩有码在线观看 | 色综合久久天天综合网 | 在线不卡视频 | 精品国产一区二区三区免费 | 欧美日韩电影免费观看 | 91精品国产一区二区三区 | 亚洲一区二区视频在线观看 | 三级特黄特色视频 | 日韩在线视频一区 | 精品一区二区免费视频 | 欧美激情一区 | 一级黄色录像片子 | 日韩有码在线观看 | 一区二区精品在线 | 成人在线免费视频观看 | 在线只有精品 | 成人国产在线视频 | 老司机67194精品线观看 |