成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學家:21世紀尤其臟的工作

大數據
在大數據世界里,數據科學家受到人們的尊敬,他們采用人工智能或深度學習的方法,提出寶貴的商業見解,造福社會。

在大數據世界里,數據科學家受到人們的尊敬,他們采用人工智能或深度學習的方法,提出寶貴的商業見解,造福社會。

《哈佛商業評論》曾這樣描述數據科學家——“數據科學家從事著21世紀最時尚的工作”。

對我來說,雖然過去五年擁有著“數據科學家”這個頭銜,但我仍然沒有完全弄清楚工作的哪個部分很時尚。可能是我新燙的頭發使我看起來像韓國歐巴。

確實,云端的出現以及企業朝著互聯網方向的發展,帶來了數據的爆炸。這推動了某些部門對數據科學家的需求以及該崗位的短缺。

數據科學家

但是,數據科學家每天要做什么工作呢?

通過分析領英上發布的職位信息,可以找到此問題的答案。以下總結了一些熱門的崗位要求:

  • 了解業務和客戶,驗證假設理論
  • 建立預測模型和機器學習流水線,進行A/ B測試
  • 對業務相關者進行概念化分析
  • 開發算法以賦能商業決策
  • 試驗并研究新技術和方法,提高技術能力。

這些聽起來很時尚/高大上,不是嗎?

除非工作還包括處理Kaggle數據集,否則這些工作描述只是數據科學家工作的一小部分。

以下調查結果由CrowdFlower發布,總結了數據科學家的日常活動:

數據科學家:21世紀最臟的工作

數據科學家花費時間最多的事情。[摘自CrowdFlower]

從上表可以看出,數據科學家大部分時間都在收集數據集,清理和組織數據。

21世紀的高性能數據真空

數據湖是一個集中存儲庫,存儲著公司的所有數據。公司得以使用該數據構建機器學習模型和儀表板。遺憾的是,有些人僅僅把數據湖當作數據轉儲的場所,或者超大硬盤。

許多公司開始實施數據湖時,對如何處理收集到的數據一無所知。這些公司會說:“讓我們收集所有的數據吧。”雖然數據湖的重點是將公司的所有數據集中在一個地方,但仍然需要根據特定的項目需求進行設計。如果不進行任何計劃,你就像創建了一個新的“無標題文件夾”,然后在其中復制并粘貼公司的全部數據。

[[319605]]

如果把臺式機視為數據轉儲場

從歷史的角度看,糟糕的計劃會帶來雜亂無章的元數據,這讓任何人都很難搜索或查找所需的數據。數據科學家經常需要與不同部門聯系以獲取數據。他們可能需要從不同的數據所有者中獲取有關數據的信息。僅存儲數據而不進行分類是一個很大的錯誤。建立有效數據湖的關鍵就是要確保元數據有良好的歸類。

由于數據治理問題或數據所有者過于忙碌,且他們往往是不同部門的利益相關者,因此獲取重要數據可能需要數周的時間。觀察一段時間后,數據科學家可能最終會發現數據不相關或存在嚴重的質量問題。

當數據科學家最終收集到數據時,他們需要花費大量時間來探索和熟悉這些數據,必須將這些混亂的數據塊重組為符合項目需求的新表。

21世紀里高需求的數據管理員

[[319606]]

來源:data.lovedata

每個處理數據的專業人員都應該聽說過“臟數據”一詞。臟數據影響了數據集的完整性。臟數據的特征有:不完整、不準確、不一致和重復。

不完整的數據是指當某些基本功能為空時,例如,假設任務是預測房價。假設“房子的位置”對于做出良好的預測至關重要,但是這一數據卻沒有。這可能會變得具有挑戰性,并且模型的效果也不佳。

不正確的數據和不一致的數據是指該值在技術上是正確的,但在語境下是錯誤的。例如,一名員工更改了地址,但數據卻未更新,或者當數據有很多副本,而數據科學家得到的版本卻已過時。

數據重復也是一個常見問題。在此分享一個我在電子商務公司工作時發生的故事。按照設計,當訪問者單擊“收集優惠券”按鈕時,網站將響應發送到服務器。這使我們能夠衡量已收集到優惠券的用戶數量。

該網站一直運行良好,直到有一天出現了一些變化,而我對此一無所知。前端開發人員在有人成功收集優惠券時添加了另一個響應,理由是某些優惠券可能缺貨了。數據科學家想跟蹤單擊該按鈕的訪問者,以及已經收集了優惠券的訪問者。

這時,兩個響應發送到同一日志表。看看我的報告工具,優惠券的數量似乎在一夜之間翻了一番!在前一天部署模型時,我以為新模型是很成功的。我記得曾為這個小模型歡呼鼓掌,但后來意識到這只是在重復計算。

另外,在過去五年里,作為數據科學家,我收集到的一些數據是公司員工手動輸入的。在Excel電子表格中,許多數據是不準確、不完整且不一致的。

無論數據是人工輸入還是機器日志,數據整理在現實世界中應用廣泛。數據科學家必須處理這些數據。為了使監督學習有效,我們需要可靠的、分類好的數據。除非正確標記數據,否則無法建立預測模型。但是沒有人喜歡標記數據。

許多人將其描述為二八規則。數據科學家僅花了20%的時間構建模型,而其他80%的時間用于收集、分析、清理和重組數據。處理臟數據是數據科學家日常工作中最耗時的。

[[319607]]

來源:Pexels

有必要說明的是,數據清理至關重要,混亂的數據不會帶來良好的結果,你可能聽過“垃圾進,垃圾出”這句話。

數據科學家在瀏覽數據時確實會有所發現,但是在數據科學家可以開始訓練任何模型之前,必須首先成為數據管理員。數據需要清理,也需要標記。

所以,將數據科學家稱為大數據世界的清潔工,應該也挺合適吧……

責任編輯:趙寧寧 來源: 讀芯術
相關推薦

2012-10-09 13:41:09

數據科學家職業

2020-05-29 17:30:05

數據科學數據工程師職業

2017-09-11 10:37:56

編程語言名單

2024-04-22 11:40:50

2022-11-14 12:38:29

2015-09-30 09:26:38

大數據高薪

2017-08-04 15:53:10

大數據真偽數據科學家

2020-04-10 10:11:15

數據泄露漏洞信息安全

2013-05-21 16:20:40

2019-12-30 22:24:50

大數據機器學習文章

2013-06-03 09:36:24

21世紀代碼寫代碼

2019-10-08 10:35:53

編譯Linux內核

2013-06-03 10:18:59

WindowsLinux微軟Office

2011-04-20 13:14:33

BlackBerry黑莓RIM

2018-12-21 14:44:17

數據科學職業生涯代碼

2011-11-23 09:33:46

程序員

2018-02-01 16:25:55

2019-03-06 08:37:46

數據科學數據科學家Python

2019-08-26 09:47:56

數據科學家數據分析

2021-10-29 15:19:44

人工智能金融科學
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产男女猛烈无遮掩视频免费网站 | 欧美亚洲网站 | 奇米av| 祝你幸福电影在线观看 | 亚洲国产一区二区三区, | 日韩精品1区2区3区 爱爱综合网 | 日韩一区二区黄色片 | 国产精品18久久久久久白浆动漫 | 久久精品国产久精国产 | jizjizjiz中国护士18 | 在线看免费的a | 午夜成人在线视频 | 国产高清免费视频 | av片免费 | 成人免费在线观看视频 | 91天堂网| 91精品国产综合久久久动漫日韩 | 中文字幕欧美日韩 | 熟女毛片 | 男人天堂免费在线 | 在线观看视频91 | 国产午夜精品久久久 | 毛片入口| 久久福利电影 | 久久综合欧美 | 五月综合久久 | 一级欧美 | 国产成人福利视频在线观看 | 五月激情综合 | 日韩高清中文字幕 | 久久久蜜桃一区二区人 | 最新国产福利在线 | 成人国产精品久久久 | 国产999精品久久久久久绿帽 | 精品熟人一区二区三区四区 | 亚洲欧洲成人av每日更新 | 日韩中文字幕 | 亚洲精彩免费视频 | 精品国产乱码久久久久久久久 | 久青草影院 | 亚洲欧美一区二区三区视频 |