成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

SQL是必學的嗎?數據科學家的技能樹該怎么點?

大數據
作為一名數據科學家,你使用什么方法?你還有其它方法嗎?數據科學家必須要會使用SQL嗎?本文將討論SQL在數據科學中的作用,以及結構化查詢語言(SQL)的替代方法。

本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。

一間屋子10個人,可能其中5位數據科學家都表示需要結構化查詢語言(SQL)才能工作,另一半人則表示還有其他方法可以處理數據。

作為一名數據科學家,你使用什么方法?你還有其它方法嗎?數據科學家必須要會使用SQL嗎?本文將討論SQL在數據科學中的作用,以及結構化查詢語言(SQL)的替代方法。

[[355527]]

SQL

是否需要了解SQL具體取決于個人所屬公司和數據科學團隊。有些團隊有數位數據工程師和數據分析師以及機器學習工程師,而有些團隊則只有一位數據科學家。所以數據科學家是否需要了解SQL,你心中自有答案。

但是,討論一下是否需要了解SOL的原因,以及不需要SOL的時機是頗為有趣且十分重要,討論這個問題也有助于即將入職的數據科學家了解工作期望。以下是我使用SQL的原因:

  • 使用SQL查詢表格以獲得有用的數據集
  • 保持自主感(盡管也需要幫助)
  • 在現有的SQL查詢中隨時發現和創建新功能

盡管數據科學可以看作是只專注于Python和R以及復雜機器學習算法的工作,但如果不充分利用SQL的優勢,一個團隊可能很難執行數據科學運算進程。不過,有時SQL并不是必需的,這取決于個人在數據科學領域的具體角色。

如果能從數據工程師或數據分析師那里獲得一些幫助,便可以參考其他替代方法。此外,當SQL查詢功能完全不符合專業時也不需要SQL,因為此時專注點在于數據科學模型開發,類似于在已獲取的數據上相互測試各種機器學習算法。

替代方法

從數據分析師或數據工程師處獲取數據集后,對數據集的下一步改進就是創建新功能要素,而不只是直接從數據表中獲取字段。例如,如果數據集中有10個字段,則可以開發幾個全新指標作為字段,而不是通過計算第1列和第2列來直接創建新的第11列。除了SQL以外,另一個比較容易進行此計算的工具是pandas。充分理由顯示,數據分析師和數據科學家已廣泛使用該庫。

使用pandas,能夠快速執行復雜計算,并且只需一行代碼。有時很難使用SQL計算數據,因為它在視覺上呈多行布局(僅為個人看法)。

以下是一些常用的pandas 數據框操作,旨在方便化數據集特征工程運算。

  1. * groupby* items* loc* iloc* iteritems*keys* iterrows* query (this operation is quite similar to SQL quering, Ihighly recommend)* aggregate* corr* mean, median, min, and max* quantile*rank* sum* std* var* append* merge* join* sort_values* isnull* notna*between_time 

大量操作都可以應用到pandas 數據框架中。個人最喜歡的操作:

  • 分組(Groupby)——對數據進行分組,并對所述組執行進一步的操作。
  • 查詢(query)——一種類似SQL的查詢方式,但在個人的數據框架中。

[[355528]]

圖源:unsplash

個人認為,計算全新的字段或指標更容易,這些字段或指標最終將用于個人pandas數據科學模型。不過,有人偏愛只在SQL中執行計算。對我來說,使用SQL的好處是我不必一次性添加所有新特性(查詢時間過長),這樣當我想添加一個新特性時,操作就非常簡單有效。

數據科學家需要了解SQL嗎?答案不是絕對的。這取決于公司、團隊,有時還取決于個人偏好。

使用SQL查詢,可以使用戶受益匪淺,所以如果你還不了解SQL,可以學習其使用方法。如果你偏愛類似pandas的替代方法,你可能是龐大數據科學團隊中的一員。

一些數據科學家同時使用SQL和Python來為模型創建最終的數據集。pandas最獨特的地方在于它有一個類似于SQL的查詢操作,用戶可以在pandas數據框中綜合使用SQL和Python。所以,想好你自己的解決方案了嗎?

 

責任編輯:趙寧寧 來源: 今日頭條
相關推薦

2016-04-11 14:15:06

數據科學數據挖掘工具

2018-02-28 15:03:03

數據科學家數據分析職業

2019-07-05 10:29:17

大數據數據科學家

2017-08-04 15:53:10

大數據真偽數據科學家

2019-11-29 18:03:27

數學R語言算法

2019-03-25 21:18:41

數據科學家大數據技能

2018-05-03 09:11:51

數據科學家職業數據科學

2015-06-11 10:27:29

數據科學家

2021-10-08 13:45:23

大數據數據科學家貨幣

2018-10-16 14:37:34

數據科學家數據分析數據科學

2012-12-27 09:50:36

Facebook

2012-12-27 09:52:23

數據科學家大數據

2015-08-25 13:20:29

數據科學

2020-03-20 14:40:48

數據科學Python學習

2012-12-06 15:36:55

CIO

2012-12-26 10:51:20

數據科學家

2018-12-24 08:37:44

數據科學家數據模型

2018-05-22 09:07:54

數據科學語言職位

2024-01-30 17:46:24

2018-02-07 15:45:37

數據科學家數據技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人久久18免费网站 | 日本欧美在线观看视频 | 一区二区免费在线视频 | 成人羞羞国产免费视频 | 中文字幕一级毛片视频 | 国产在线一区二区三区 | 国产特级毛片 | 一级国产精品一级国产精品片 | 久久久久高清 | 亚洲成av人影片在线观看 | 狠狠操网站 | 亚洲欧美一区二区三区情侣bbw | 欧美久久电影 | 久久激情视频 | 欧美在线色视频 | www狠狠爱com| 国产视频91在线 | 中文字幕一区二区三区日韩精品 | 久久91精品国产一区二区 | 日韩欧美亚洲 | 一区二区三区欧美 | 中文字幕 国产精品 | 国产目拍亚洲精品99久久精品 | 久久精品中文 | 日本在线网址 | 狠狠撸在线视频 | 国产999精品久久久久久 | 精品一区二区免费视频 | 91黄在线观看 | 国产日韩精品在线 | 亚洲欧美一区二区三区1000 | 国产精品1区2区 | 久久亚洲国产精品 | 国产精品乱码一区二三区小蝌蚪 | 国产福利在线播放 | 91久久久久久久久久久 | 欧美日韩一区二区三区不卡视频 | 午夜成人在线视频 | 国产精品污www一区二区三区 | 亚洲天堂精品一区 | 欧美成人猛片aaaaaaa |