成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)科學家應當了解的五個統(tǒng)計基本概念

大數(shù)據(jù)
本文講述了數(shù)據(jù)科學家應當了解的五個統(tǒng)計基本概念:統(tǒng)計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統(tǒng)計。從高的角度來看,統(tǒng)計學是一種利用數(shù)學理論來進行數(shù)據(jù)分析的技術。

本文講述了數(shù)據(jù)科學家應當了解的五個統(tǒng)計基本概念:統(tǒng)計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統(tǒng)計。

從高的角度來看,統(tǒng)計學是一種利用數(shù)學理論來進行數(shù)據(jù)分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統(tǒng)計學我們可以以更富有信息驅(qū)動力和針對性的方式對數(shù)據(jù)進行操作。所涉及的數(shù)學理論幫助我們形成數(shù)據(jù)的具體結(jié)論,而不僅僅是猜測。

利用統(tǒng)計學,我們可以更深入、更細致地觀察數(shù)據(jù)是如何進行精確組織的,并且基于這種組織結(jié)構(gòu),如何能夠以***的形式來應用其它相關的技術以獲取更多的信息。今天,我們來看看數(shù)據(jù)科學家需要掌握的5個基本的統(tǒng)計學概念,以及如何有效地進行應用。

特征統(tǒng)計

特征統(tǒng)計可能是數(shù)據(jù)科學中最常用的統(tǒng)計學概念。它是你在研究數(shù)據(jù)集時經(jīng)常使用的統(tǒng)計技術,包括偏差、方差、平均值、中位數(shù)、百分數(shù)等等。理解特征統(tǒng)計并且在代碼中實現(xiàn)都是非常容易的。請看下圖:

 

上圖中,中間的直線表示數(shù)據(jù)的中位數(shù)。中位數(shù)用在平均值上,因為它對異常值更具有魯棒性。***個四分位數(shù)本質(zhì)上是第二十五百分位數(shù),即數(shù)據(jù)中的25%要低于該值。第三個四分位數(shù)是第七十五百分位數(shù),即數(shù)據(jù)中的75%要低于該值。而***值和最小值表示該數(shù)據(jù)范圍的上下兩端。

箱形圖很好地說明了基本統(tǒng)計特征的作用:

概率分布

我們可以將概率定義為一些事件將要發(fā)生的可能性大小,以百分數(shù)來表示。在數(shù)據(jù)科學領域中,這通常被量化到0到1的區(qū)間范圍內(nèi),其中0表示事件確定不會發(fā)生,而1表示事件確定會發(fā)生。那么,概率分布就是表示所有可能值出現(xiàn)的幾率的函數(shù)。請看下圖:

 

 

 

常見的概率分布,均勻分布(上)、正態(tài)分布(中間)、泊松分布(下):

如果遇到一個高斯分布,那么我們知道有很多算法,在默認情況下高思分布將會被執(zhí)行地很好,因此首先應該找到那些算法。如果是泊松分布,我們必須要特別謹慎,選擇一個在空間擴展上對變化要有很好魯棒性的算法。

降維

降維這個術語可以很直觀的理解,意思是降低一個數(shù)據(jù)集的維數(shù)。在數(shù)據(jù)科學中,這是特征變量的數(shù)量。請看下圖:

 

上圖中的立方體表示我們的數(shù)據(jù)集,它有3個維度,總共1000個點。以現(xiàn)在的計算能力,計算1000個點很容易,但如果更大的規(guī)模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的數(shù)據(jù),比如從立方體一側(cè)的角度,可以看到劃分所有的顏色是很容易的。通過降維,我們將3D數(shù)據(jù)展現(xiàn)到2D平面上,這有效地把我們需要計算的點的數(shù)量減少到100個,大大節(jié)省了計算量。

另一種方式是我們可以通過特征剪枝來減少維數(shù)。利用這種方法,我們刪除任何所看到的特征對分析都不重要。例如,在研究數(shù)據(jù)集之后,我們可能會發(fā)現(xiàn),在10個特征中,有7個特征與輸出具有很高的相關性,而其它3個則具有非常低的相關性。那么,這3個低相關性的特征可能不值得計算,我們可能只是能在不影響輸出的情況下將它們從分析中去掉。

用于降維的最常見的統(tǒng)計技術是PCA,它本質(zhì)上創(chuàng)建了特征的向量表示,表明了它們對輸出的重要性,即相關性。PCA可以用來進行上述兩種降維方式的操作。

過采樣和欠采樣

過采樣和欠采樣是用于分類問題的技術。例如,我們有1種分類的2000個樣本,但第2種分類只有200個樣本。這將拋開我們嘗試和使用的許多機器學習技術來給數(shù)據(jù)建模并進行預測。那么,過采樣和欠采樣可以應對這種情況。請看下圖:

 

在上面圖中的左右兩側(cè),藍色分類比橙色分類有更多的樣本。在這種情況下,我們有2個預處理選擇,可以幫助機器學習模型進行訓練。

欠采樣意味著我們將只從樣本多的分類中選擇一些數(shù)據(jù),而盡量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分布。我們只是通過更少的抽樣來讓數(shù)據(jù)集更均衡。

過采樣意味著我們將要創(chuàng)建少數(shù)分類的副本,以便具有與多數(shù)分類相同的樣本數(shù)量。副本將被制作成保持少數(shù)分類的分布。我們只是在沒有獲得更多數(shù)據(jù)的情況下讓數(shù)據(jù)集更加均衡。

貝葉斯統(tǒng)計

完全理解為什么在我們使用貝葉斯統(tǒng)計的時候,要求首先理解頻率統(tǒng)計失敗的地方。大多數(shù)人在聽到“概率”這個詞的時候,頻率統(tǒng)計是首先想到的統(tǒng)計類型。它涉及應用一些數(shù)學理論來分析事件發(fā)生的概率,明確地說,我們唯一計算的數(shù)據(jù)是先驗數(shù)據(jù)(prior data)。

 

[[248172]]

假設我給了你一個骰子,問你擲出6點的幾率是多少,大多數(shù)人都會說是六分之一。

但是,如果有人給你個特定的骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前的數(shù)據(jù),而給你作弊的骰子的因素并沒有被考慮進去。

貝葉斯統(tǒng)計確實考慮了這一點,我們可以通過貝葉斯法則來進行說明:

 

在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關于事件發(fā)生概率的數(shù)據(jù)。方程中的P(E|H)稱為可能性,根據(jù)頻率分析得到的信息,實質(zhì)上是現(xiàn)象正確的概率。例如,如果你要擲骰子10000次,并且前1000次全部擲出了6個點,那么你會非常自信地認為是骰子作弊了。

如果頻率分析做的非常好的話,那么我們會非常自信地確定,猜測6個點是正確的。同時,如果骰子作弊是真的,或者不是基于其自身的先驗概率和頻率分析的,我們也會考慮作弊的因素。正如你從方程式中看到的,貝葉斯統(tǒng)計把一切因素都考慮在內(nèi)了。當你覺得之前的數(shù)據(jù)不能很好地代表未來的數(shù)據(jù)和結(jié)果的時候,就應該使用貝葉斯統(tǒng)計方法。

責任編輯:未麗燕 來源: 數(shù)據(jù)分析
相關推薦

2020-09-29 17:15:41

數(shù)據(jù)科學技術

2017-11-21 14:42:30

數(shù)據(jù)科學統(tǒng)計學習機器學習

2020-10-31 22:04:39

統(tǒng)計和數(shù)據(jù)科學數(shù)據(jù)科學家

2021-01-29 14:38:36

數(shù)據(jù)科學數(shù)據(jù)科學家統(tǒng)計學

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學家

2020-08-28 13:49:13

數(shù)據(jù)統(tǒng)計學面試

2019-07-05 10:29:17

大數(shù)據(jù)數(shù)據(jù)科學家

2019-01-08 16:25:42

數(shù)據(jù)科學機器學習神經(jīng)網(wǎng)絡

2019-07-03 15:21:47

數(shù)據(jù)科學統(tǒng)計數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

2020-08-03 12:47:58

DevOps數(shù)據(jù)科學家代碼

2012-12-06 15:36:55

CIO

2018-12-24 08:37:44

數(shù)據(jù)科學家數(shù)據(jù)模型

2012-12-26 10:51:20

數(shù)據(jù)科學家

2018-05-03 09:11:51

數(shù)據(jù)科學家職業(yè)數(shù)據(jù)科學

2017-04-12 09:34:30

數(shù)據(jù)科學家統(tǒng)計學家好習慣

2018-02-28 15:03:03

數(shù)據(jù)科學家數(shù)據(jù)分析職業(yè)

2019-07-30 12:05:20

數(shù)據(jù)科學采樣算法

2016-03-10 13:56:42

數(shù)據(jù)科學數(shù)據(jù)科學家數(shù)據(jù)分析

2023-12-06 13:42:00

圖表可視化

2023-12-08 13:53:47

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产午夜精品久久久 | 成人免费在线网 | 亚洲午夜视频 | 久久精品欧美一区二区三区不卡 | 国产成人精品久久二区二区 | 日日夜夜天天综合 | 羞羞在线观看视频 | 午夜电影合集 | 欧美另类日韩 | 久久国产精品久久国产精品 | 欧美精品福利 | 国产黄a一级 | 免费视频一区二区三区在线观看 | 天堂视频免费 | 求毛片 | 精品视频国产 | 国产一区二区毛片 | 一级二级三级黄色 | 91在线观看免费 | 日韩一区二区三区在线 | 国产精品二区三区 | 黄色免费av| 亚洲高清av| 欧美日韩久久 | 国产激情第一页 | 黄免费观看视频 | 精品亚洲一区二区三区 | 在线视频一区二区三区 | 欧美中文字幕一区 | 一区二区三区国产 | 成人免费大片黄在线播放 | 日本一区二区不卡视频 | 欧美成人免费在线视频 | www.99热.com | 国产欧美日韩二区 | 精品一区二区三区日本 | 天天色天天射天天干 | 欧美精品福利视频 | 不卡av电影在线播放 | 久久久久久久久久久久久久久久久久久久 | 日本不卡免费新一二三区 |