成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

挨踢部落故事匯(33):“小白”帶你分分鐘玩轉數據分析

原創
移動開發
數據小白從最初的職場菜鳥,到“表姐”,到大數據產品,直到現在仍然在數據領域翻山越嶺。是什么力量使她對數據如此著迷?數據分析高級工程師又是怎么煉就的?且聽下文分曉。

【51CTO.com原創稿件】數據小白從最初的職場菜鳥,到“表姐”,到大數據產品,直到現在仍然在數據領域翻山越嶺。是什么力量使她對數據如此著迷?數據分析高級工程師又是怎么煉就的?且聽下文分曉。

小白是個85后的姑娘,坦率、樂觀、好奇。因為姓白,朋友都叫她小白。就是因為有一顆好奇心所以開啟了數據小白之路。

[[213353]]

小白·數據分析高級工程師

小白畢業于二流院校的應用數學統計專業,在校階段學了一些統計相關知識,讀了一些統計周邊書籍,輕松的寫了兩篇論文發表在統計領域期刊上。畢業后抱著一顆數據心投入職場,加入了北漂行列。第一份工作在一家教育公司,做科研氛圍比較濃的教育行業數據分析,之后依次在電子商務、教育、咨詢、傳統制造業企業里摸爬滾打,從最初的職場菜鳥,到“表姐”,到大數據產品,直到現在仍然在數據領域翻山越嶺。

初入職場,小白如何才能變強大

有一次,數據小白接到獵頭電話推薦一家互聯網金融公司的算法攻城獅職位,小白的那顆不安定的心開始蠢蠢欲動,于是約了時間走進了那家互聯網金融公司,遇見了一位不修邊幅、帶著不羈的面試官。小白被面試官的一通發問,問的暈頭轉向,不過其中有一個問題讓小白很感興趣(補充一下:小白的算法能力弱弱的,僅限于可以熟練調用R開源軟件中的算法包)。那就是大家一直都很糾結的模型的簡單與復雜,模型的精度提高及造成的過擬合問題如何解決。借此機會,跟大家一起分享一點她的粗淺認知。

模型復雜度和過擬合

模型簡單與復雜的認知:模型過于簡單可能會造成分類不準或者預測不精的后果,在目前大的數據質量普遍較低的環境下,會造成一些人對模型的復雜度的追求以彌補數據質量的缺陷,最終使算法模型的復雜度不斷提高。但是復雜程度高的模型一定是好模型嗎?

來看一張圖(有圖有真相哈)

此圖來源于統計之都論壇

上圖橫坐標是模型復雜度,縱坐標是預測誤差;明確表示了隨著模型復雜度的提高,訓練集的預測誤差逐步減小直至接近于0(擬合的很棒啊,誤差無線接近于0,此處有撒花,此處有掌聲),等等……測試集的誤差好像不太完美啊,怎么翹尾巴了呢?這就是常說的“過擬合”現象。所以模型的選擇不是越復雜越好,而是選擇最好的模型(當然是某一個模型集中),最好的模型就是在新的數據上預測誤差等指標表現好的。

模型出現“過擬合”現象應該如何解決呢?正則化!正則化!!正則化!!!(重要的事兒說三遍)還有一句廢話就是:擁有更多更廣維度的高質量數據勝過一個好模型,大數據時代數據為王哈!!!

常見坑:數據定義和數據理解

數據理解是每個數據分析必備的能力,但是數據定義在過往的一些粗放型管理中卻是缺失的,這時候如果一個分析師沿用經驗認知來理解數據的話,不論后期的分析和算法模型多么嚴謹多么高端都會大打折扣,甚至是徒勞無功的。

給大家安利一下:1998年NASA發射火星氣象探測器,1999年探測器失聯。究其原因是人為因素,火星氣候探測者號上的飛行系統軟件使用公制單位牛頓計算推進器動力,而地面人員輸入的方向校正量和推進器參數則使用英制單位磅力,導致探測器進入大氣層的高度有誤,最終瓦解破裂。

舉一個工作經歷的案例:業務場景是需要做一些業務指標的可視化,在數據流計算過程中突然領導發現不對啊,我的業績指標怎么少了?這個鍋誰背呢?做數據的!!!之后就可想而知了,所有冠以“數據”tittle的全部開始打雞血查,邏輯,沒問題!存儲任務,沒問題!數據同步時間點,沒問題!領導翻白眼,肯定錯了,沒問題怎么會數據不對?心里沒準兒已經開始問候你的情商、智商都是重傷了。最后的最后什么原因呢?生產庫一個業務字段的長度變長了,你可以理解成類似于15位的身份證號碼突然開始慢慢變成18位了。

這種坑怎么破?高端的叫法現在有一個領域正在發展起來:數據治理,還有DAMA的認證,含金量蠻高;Low點的玩法一個小小數據分析師那就追著業務人員,厚著臉皮請教吧,不要趕腳你的問題弱智啊,沒準兒以前就是這么弱弱的玩法。

數據群體性結論預測個體

剛才的坑是分析人員對業務理解的認知誤區,下面的坑是業務人員對分析結論的認知誤區。

同樣舉個栗子,大概兩年前大數據是一個神一般的存在,目前大家的認識開始有些分歧,一部分人低估大數據的力量,為啥呢?很多人砸了錢沒聽見響動。一部分人仍然執迷于大數據研究,一部分人開始客觀的認識到大數據威力不是一蹴而就的,不是你掛了個大數據XXX的部門,請幾個工程師就能駕馭大數據這個利器的。今天不去糾結大數據,只是舉個數據分析的例子,也是小白的一次項目經歷。

項目目的:做在線教育學員的二次消費行為分析(電商的二次營銷辣么成功,老客戶開發成本比新客戶開發成本低辣么多),很有意義的項目啊,但是請注意:是學歷在線教育。

項目過程:項目中各路數據大俠拿出華山論劍的本事兒,清洗數據,建立模型,模型檢驗,模型精度評估,看著這一連串的招式舞的行文流水,最終結論:模型檢驗準確率90%以上(歷史數據顯示不再報名的學生達90%以上),但是已有的數據特征指標對模型的解釋度只有10%,言外之意是啥呢?要補指標,需要補啥樣的呢?方向不清晰,牽涉也比較大,所以作罷。

項目后期:領導又出場了,項目有結論了,來預測一下吧,哪個學生可以再來學一次?只告訴我是誰能來就好了。數據分析師是不是有點無語凝噎的趕腳了?做不做都是背鍋俠。這種坑怎么破?讓時間的洪流帶走一切吧!!!

【寫在最后】

以上是小白個人的一些粗淺認知,數據探知的過程中有時候是枯燥無聊的,有時候透過數據看清客觀存在又是激動人心、成就感十足的;愿能與各位在數據和技術領域孜孜不倦探索的小伙伴們一同成長,也祝51CTO越辦越好。

如果你也愿意分享你的故事,請加51CTO開發者QQ交流群 669593076聯系群主小官,期待你精彩的故事!

51CTO開發者交流群⑦群 669593076

【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯:何星 來源: 51CTO
相關推薦

2017-11-28 14:15:38

開發者故事

2016-12-30 16:43:53

開發者故事

2017-03-21 11:19:57

開發者故事

2017-01-18 16:37:43

開發者故事

2017-03-01 15:57:48

開發者故事

2017-01-11 17:25:23

開發者故事

2017-01-10 14:59:03

開發者故事

2017-09-15 11:39:47

2017-01-19 13:40:56

開發者故事

2017-03-10 11:32:49

開發者故事

2017-01-16 17:24:08

開發者故事

2017-01-18 11:07:20

開發者故事

2017-07-06 14:59:27

2017-01-13 16:36:29

開發者故事

2017-03-24 16:43:09

開發者故事

2017-06-09 16:27:40

開發者故事

2017-04-25 15:39:30

開發者故事

2018-07-04 17:42:58

開發者故事

2017-01-05 15:30:59

開發者故事

2017-10-23 13:15:51

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线视频一区二区三区 | 粉嫩一区二区三区国产精品 | 一级黄色片网址 | 黄色网址大全在线观看 | 国产一区二区毛片 | 一区二区视频 | 久久久美女 | 免费在线黄色av | 91啪影院 | 国产成人99久久亚洲综合精品 | 国产精品久久久久无码av | 99re热精品视频 | 日韩欧美中文 | 亚洲视频在线看 | 国产综合网址 | 国产精品国产亚洲精品看不卡15 | 免费视频一区二区三区在线观看 | 特级黄一级播放 | 日韩精品一区二区三区视频播放 | 日韩综合在线视频 | 羞羞视频在线网站观看 | 久久久2o19精品 | 成人激情免费视频 | 精品日韩一区 | 午夜国产一级 | 国产日韩欧美精品一区二区 | 欧美国产精品 | 狠狠操狠狠操 | 国产色片在线 | 三级黄片毛片 | 91在线观看视频 | 欧美白人做受xxxx视频 | 三a毛片 | 欧美日韩在线视频一区二区 | 久操国产 | 亚洲精品福利视频 | 国产精品污www一区二区三区 | 日本久久黄色 | 国产精品永久免费 | 欧美色综合一区二区三区 | 欧美日韩大陆 |