成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你的工資是怎樣被平均的?終于有人把平均數、中位數和眾數講明白了

大數據 數據分析
我們在數據處理時,要小心各種陷阱!人們習慣使用統計數據來簡化事物描述,但錯誤的統計方法不僅不能反映事實,還會讓數據變得毫無意義。

有人曾統計了某家互聯網公司的季度財報。結果顯示,該公司員工平均月薪是其他同行的3~4倍。消息一出,立即引起人們熱議。雖然后來這家公司出來辟謠,表明公開的酬金成本包括員工培訓、福利開支、繳納稅金、商業保險、年終獎,但這并沒能讓大眾信服。人們關心的問題是:統計平均工資的方法是否合理?

如果把一個普通員工和世界首富的工資放在一塊取平均值,那么可以想象,普通人的工資幾乎可以忽略不計。在一個企業中,20%的人占據了80%的工資總額。高收入的人比例偏少,但對平均工資的影響很大。

平均工資僅僅是經濟領域的一個例子。生活中,我們會接觸到各式各樣的數據,它們以不同的形態展現。在處理一組數據時,平均值可以很好地代表這組數據的平均水平,但由于削峰填谷,它也勢必會損失一部分信息,只能反映總體特征的一個方面。

想要掌握數據的全貌,就要了解數據的屬性和性質。對于一組數據,我們首先要知道大部分數值落在哪里?也就是說,我們通常選擇數據的“中間位置”,即反映數據集中趨勢的統計量,來表示數據的中心。這里的度量方法有平均數、中位數、眾數等。

01 平均數

平均數也叫平均值、均值,是統計學中最基本、最常用的一種定義一組數據特征的指標,用來描述數據的平均水平。計算平均數可以把所有數據相加再除以數據個數,比如{1,2,3,4,5}的平均數就是3。

盡管平均數是描述數據集最有用的一個統計量,但是它并非總是度量數據中心的最佳方法。最主要問題是平均數對極端值(比如離群點)很敏感,會被少數很低或很高的數值明顯影響。為了抵消這種影響,可以使用截尾均值,即丟棄一部分高低極端值后計算均值。比如跳水比賽,就采用去掉最高分和最低分的截尾均值計分法。

02 中位數

中位數是將數據按大小順序排列后處在中間位置的數,描述數據的中等水平。如果有奇數個數,則中位數是中間值;如果是偶數個數,則中位數一般取兩個最中間值的平均值。它適用于對傾斜(非對稱)數據的度量。

03 眾數

眾數是集合中出現頻率最高的數值,描述數據的一般水平。眾數的個數不一定是唯一的。一組數據中,可能會存在多個眾數,也可能不存在眾數。眾數不僅適用于數值型的數據,對于非數值型的數據也同樣適用。例如,{蘋果,蘋果,蘋果,香蕉,梨,梨}這組數據中,沒有均值和中位數,但是存在眾數—蘋果。

04 眾數、中位數、均值的關系

如果一組數據的平均值、中位數、眾數是同一個數,則說明它的數據分布是對稱的。但這種情況不常見,更多情況下,數據是正傾斜負傾斜,如圖2-1所示。

▲圖2-1 眾數、中位數、均值的關系

收入數據就是典型的偏斜數據,大多數人是工薪階層或退休老人,只有少數幾個億萬富翁。收入數據如圖2-1中的正傾斜數據,大多數人的收入集中在左側,右側有一條長長的尾巴,表示少數人的收入。這種分布不適合用平均數來描述。因為平均數對極端數據非常敏感,一兩個億萬富翁,會拉高整個人群的收入水平線,使得收入均值比人們認知中的平均收入高出很多。

平均工資消除了大量低收入人群和少數巨額收入人群之間的差異。但如果換成眾數也不合適,因為低收入人群占了工資比例的大多數區間。統計工資時的合理選擇是統計中位數,它揭示了一半人和另一半人收入的分界線。

當然,并不是說中位數就是一個比平均數更好的統計量,只是它更適合工資統計。

引入統計量的意義就在于簡化。比如老師告訴你說,孩子考試的排名處于班級里面的后10%,你就應該意識到他的學習成績不太好,學習上要加把勁。在這個過程中,你不需要知道任何關于考試本身的內容,或孩子在考試中到底答對了多少題。一個排名數字,就能讓你了解孩子的學習水平。

不過也正是由于統計量的簡化,它不可避免地會丟失一些信息,其優點也是缺點。許多現象是無法只用一個數字來解釋的。如果單憑一個統計量描述對象具有局限性,我們就應該嘗試獲得更多的數據,以及更多的細節。

關于作者:徐晟,某商業銀行IT技術主管,畢業于上海交通大學,從事IT技術領域工作十余年,對科技發展、人工智能有自己獨到的見解,專注于智能運維(AIOps)、數據可視化、容量管理等方面工作。

本文摘編自大話機器智能:一書看透AI的底層運行邏輯》,經出版方授權發布。(ISBN:9787111696193)

責任編輯:龐桂玉 來源: 大數據DT
相關推薦

2021-06-13 12:03:46

SaaS軟件即服務

2021-10-09 00:02:04

DevOps敏捷開發

2022-03-27 20:32:28

Knative容器事件模型

2021-02-14 00:21:37

區塊鏈數字貨幣金融

2021-03-03 21:31:24

量化投資利潤

2022-01-05 18:27:44

數據挖掘工具

2022-07-31 20:29:28

日志系統

2021-06-29 11:21:41

數據安全網絡安全黑客

2020-11-30 08:34:44

大數據數據分析技術

2022-04-22 11:26:55

數據管理架構

2022-04-12 18:29:41

元數據系統架構

2022-05-01 22:09:27

數據模型大數據

2021-09-02 12:30:22

自動駕駛人工智能技術

2022-04-18 07:37:30

數據信息知識

2022-02-15 09:04:44

機器學習人工智能監督學習

2021-04-12 07:36:15

Scrapy爬蟲框架

2020-10-29 06:09:37

數據中臺數據大數據

2020-12-01 09:22:43

進程協程開發

2022-05-09 20:23:51

數據采集

2022-07-26 00:00:01

安全紅藍對抗滲透
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品无码久久久久久久动漫 | 精品国产91| 国产一区二区在线91 | 一区二区在线 | 男女午夜免费视频 | 国产福利在线 | 中文字幕免费视频 | 99久久免费观看 | 天天躁日日躁狠狠躁白人 | 亚洲成人一级 | 看一级黄色毛片 | 亚洲精品久久久久avwww潮水 | 精品av | 欧美成人激情 | 神马久久春色视频 | 99成人在线视频 | 午夜a v电影 | 亚洲精品福利视频 | 九九在线 | 久久久久久久久久爱 | 小h片免费观看久久久久 | 天天躁日日躁xxxxaaaa | 中文字幕第十页 | 久久伊人亚洲 | 日日日日操 | 日韩不卡一区二区 | 日韩免费一区 | 亚洲欧美男人天堂 | 91精品国产91久久久久久三级 | 一区二区三区免费观看 | 欧美日韩在线免费 | 日韩中文字幕免费 | 国产精品伦一区二区三级视频 | 久久精品综合网 | 日韩天堂av | 国产成人精品一区二区三区四区 | 午夜成人免费视频 | 香蕉国产在线视频 | 成人在线免费视频观看 | 亚洲精品久久久久avwww潮水 | 免费在线a视频 |